首页 > TAG信息列表 > fuzzy-search

用python正则表达式编译模糊正则表达式

当我发现python regex模块可以进行模糊匹配时,我感到非常高兴,因为它似乎是解决我许多问题的简单方法.但是现在我遇到了一个问题,我没有从文档中找到任何答案. 如何使用新的模糊性值功能将字符串编译为正则表达式? 为了说明我通常的需求并给出一些示例代码 import regex f = open('

算法检测Python数据集中的重复/类似字符串(例如电子邮件主题)

这个问题已经在这里有了答案:            >            A better similarity ranking algorithm for variable length strings                                    22个 我正在下载一长串电子邮件主题行,目的是查找我

Python-遍历字符串列表并分组部分匹配的字符串

所以我有一个字符串列表如下: list = ["I love cat", "I love dog", "I love fish", "I hate banana", "I hate apple", "I hate orange"] 我如何遍历列表并在没有给定关键字的情况下将部分匹配的字符串分组.结果应如下所示: list 1 = [["I love cat",&

Python中的模糊字符串匹配

我有两个超过一百万个名称的列表,命名约定略有不同.这里的目标是匹配那些相似的记录,具有95%置信度的逻辑. 我知道有一些我可以利用的库,比如Python中的FuzzyWuzzy模块. 然而,就处理而言,似乎将占用太多资源,将1个列表中的每个字符串与另一个列表进行比较,在这种情况下,似乎需要100

python – 如何找到最佳模糊字符串匹配?

Python的new regex module支持模糊字符串匹配.唱歌(现在)大声赞美. 根据文档: The ENHANCEMATCH flag makes fuzzy matching attempt to improve the fit of the next match that it finds. The BESTMATCH flag makes fuzzy matching search for the best match instead of t

java – 非英语字符串上的Levenshtein距离

Levenshtein distance算法也适用于非英语语言字符串吗? 更新:在比较亚洲字符时,这是否会像Java这样的语言自动运行?解决方法:只有语言是基于字母的.例如俄语,德语,……但是象形文字(例如中国)或音节(比如老挝) – 不是.

在python中识别字符串中子字符串的最有效方法?

我需要为CPV(常见采购词汇)代码搜索相当冗长的字符串. 目前我正在使用一个简单的for循环和str.find() 问题是,如果CPV代码以稍微不同的格式列出,则此算法将找不到它. 什么是在字符串中搜索代码的所有不同迭代的最有效方法?是否只是重新格式化最多10,000个CPV代码并对每个实例使用str

php – 如何在Zend Lucene中找到“Foo Bar”时找到“FooBar”

我正在使用Zend Lucene构建一个php网站的搜索功能,我遇到了问题. 我的网站是商店总监(类似的东西). 例如,我有一个名为“FooBar”的商店,但我的访客搜索“Foo Bar”并获得零结果.此外,如果一家商店被命名为“Foo Bar”,并且访客搜索“FooBar”,则找不到任何内容. 我试图搜索“fooba

在php中模糊搜索数组

在我搜索之后,我发现了如何对字符串进行模糊搜索 但我有一个字符串数组 $search = {“a”=> “laptop”,“b”=> “屏幕”….} 我从DB MySQL中检索到的 是否有任何php类或函数对单词数组进行模糊搜索 或至少与一些有用信息的链接 我看到推荐使用PostgreSQL的评论 它是模糊搜索能力

java – Android&模糊匹配,n-gram和Levenshtein距离

我正在构建一个Android应用程序,它采用字符串输入并使用Google API返回排名的书籍列表. 我正在寻找一种方法来比较用户输入的开放式字符串,以及列表中的第一项,以查看他们输入的内容是否“可能”是一本书.我有大量关于书籍,标题,作者,描述等的信息,所以我可以搜索任何部分. 一个例

如何在Python中对Levenshtein距离超过80%的单词进行分组

假设我有一个清单: – person_name = ['zakesh', 'oldman LLC', 'bikash', 'goldman LLC', 'zikash','rakesh'] 我试图以这种方式对列表进行分组,以便两个字符串之间的Levenshtein distance最大.为了找出两个单词之间的比例,我使用的是python包fuzzywuzzy. 例子 :- >

python – 在数据库中的近似搜索

我有一个大型数据库,里面有一系列机构(大学,医院等).机构的名称来自不同的来源,并且对于同一机构可以拼写不同.例如,它们可能拼写错误,或者可以缩短单词(“uni”,“univ”或“university”) 给定一个我需要插入数据库的名称,有没有一种实用的方法来查找该机构是否已经在数据库中?这