首页 > TAG信息列表 > levenshtein-distance

PHP-MySQL-将utf8(非英语)数据的拉丁(英语)格式输入匹配

我在MySQL中维护音乐数据库,如何返回存储在例如人们搜索“ Tiesto”时会显示“Tiësto”吗? 如果有任何区别,所有数据都将存储在全文索引下. 我已经在PHP中使用Levenshtein和在SQL中使用REGEXP了-并不是为了解决这个问题,而是为了提高总体可搜索性. PHP: function Levenshtein($word

Damerau-Levenshtein距离算法在MySQL中的作用

有没有人知道Damerau-Levenshtein距离算法的MySQL实现作为存储过程/函数,它将一个指定的字符串作为参数并在特定表中的特定字段中查找字符串的模糊匹配? 我找到了各种程序/功能代码示例,它们比较了两个指定的字符串并计算了距离,但首先这只是Levenshtein距离算法,而不是Damerau-Leve

如何纠正这个Damerau-Levenshtein实现中的错误?

我又回来了另一个冗长的问题.已经尝试了许多基于Python的Damerau-Levenshtein 编辑距离实现,I finally found the one listed below作为editdistance_reference().它似乎提供了正确的结果,似乎有一个有效的实施. 所以我开始将代码转换为Cython.在我的测试数据上,参考方法设法提供结

Python中的高性能模糊字符串比较,使用Levenshtein或difflib

我正在进行临床信息规范化(拼写检查),其中我检查每个给定的单词对900,000字的医学词典.我更关注时间复杂度/性能. 我想做模糊字符串比较,但我不确定使用哪个库. 选项1: import Levenshtein Levenshtein.ratio('hello world', 'hello') Result: 0.625 选项2: import difflib diffl

java – 非英语字符串上的Levenshtein距离

Levenshtein distance算法也适用于非英语语言字符串吗? 更新:在比较亚洲字符时,这是否会像Java这样的语言自动运行?解决方法:只有语言是基于字母的.例如俄语,德语,……但是象形文字(例如中国)或音节(比如老挝) – 不是.

如何在MySQL中对字符串进行标记?

我的项目是从平面Excel文件中导入大量的500K行数据,这些数据由一组人手动创建.现在的问题是,所有这些都需要规范化,以便客户端搜索.例如,公司字段将包含多个公司拼写并包含分支,例如“IBM”和“IBM Inc.”另外,我的产品名称是字母数字,例如“A46-Rhizonme Pentahol”,SOUNDEX单独无

php – 如何使用Levenshtein距离和错别字帐来创建类似字符串的阈值?

我们最近遇到了一个有趣的问题,我们在数据库中发现了重复的用户提交数据.我们意识到大部分数据之间的Levenshtein距离只是所讨论的2个字符串之间的差异.这表明如果我们只是将一个字符串中的字符添加到另一个字符串中,那么我们最终会得到相同的字符串,对于大多数情况来说,这似乎是我

c – Levenshtein算法:如何满足此文本编辑要求?

我正在使用levenshtein算法来满足这些要求: 当找到N个字符的单词时,在我的字典数据库中建议更正的单词是: N个字符的每个字典单词,与找到的单词有1个字符差异. 例:发现词:bearn,词典词:熊 N 1个字符的每个字典单词,其N个字符等于找到的单词.例:发现词:熊,字典词:熊 N-1个字符的每个字典单词

php – 确定两个名字是否彼此接近

我正在为我的学校制作一个系统,我们可以检查学生是否入围黑人,参加派对和其他活动.我很容易检查学生是否被列入黑名单,因为我可以在我的数据库中查看学生并查看他/她是否列入黑名单. 这是困难的地方. 在我们的聚会上,每个学生都可以邀请一个人.理论上,黑名单的学生可以被另一名学生

如何在python中使用下划线安装模块名称?

我正在尝试安装Levenshtein模块,你可以看到here. 我可以通过python setup.py build运行setup.py文件. 然后,当我通过从终端执行python而立即进入python时,在与Levenshtein文件夹相同的文件夹中,我尝试导入它: 进口Levenshtein, 但是我收到以下错误: >>> import Levenshtein Trac

javascript – 修改Levenshtein距离函数来计算两组x-y坐标之间的距离?

我一直在尝试修改Levenshtein距离函数,以便它可以找到两条线或x-y坐标组之间的距离(换句话说,线条的相似或不同,而不是它们的几何距离).我遇到了一些问题.我得到你如何获取上面的值来获得删除成本,以及左边的那个获得添加,但在替换期间我试图使用euchlidian距离,并且它不适合我. 如

php – MySQL搜索相邻记录的单词距离

我正在MySQL数据库中的静态记录中执行关键字文本搜索.是否可以构造一个查询来查找记录中的第一个关键字和相邻记录中的第二个关键字?请考虑以下示例数据. ------------------------------------------------------ | id | textstrings | -------

python – 计算Levenshtein编辑距离的复杂性

我现在一整天都在看这个简单的Levenshtein Edit Distance python实现. def lev(a, b): """Recursively calculate the Levenshtein edit distance between two strings, a and b. Returns the edit distance. """ if("" == a):

php – 将单词拼写错误的位置放置点

我正在用PHP创建一个Web应用程序,人们可以尝试翻译他们需要为学校学习的单词. 例如,有人需要用英语将荷兰语’weer’翻译成’weather’,但不幸的是他输入’是否’.因为他几乎输入了正确的单词,我想给他另一个尝试,点”.在他犯错误的地方: Language A: weer Language B: weather

java – Android&模糊匹配,n-gram和Levenshtein距离

我正在构建一个Android应用程序,它采用字符串输入并使用Google API返回排名的书籍列表. 我正在寻找一种方法来比较用户输入的开放式字符串,以及列表中的第一项,以查看他们输入的内容是否“可能”是一本书.我有大量关于书籍,标题,作者,描述等的信息,所以我可以搜索任何部分. 一个例

如何在Python中对Levenshtein距离超过80%的单词进行分组

假设我有一个清单: – person_name = ['zakesh', 'oldman LLC', 'bikash', 'goldman LLC', 'zikash','rakesh'] 我试图以这种方式对列表进行分组,以便两个字符串之间的Levenshtein distance最大.为了找出两个单词之间的比例,我使用的是python包fuzzywuzzy. 例子 :- >