首页 > TAG信息列表 > string-matching

字符串解析和匹配算法

我正在解决以下问题: 假设我有一个软件包列表,它们的名称可能看起来像这样(唯一已知的是,这些名称的格式类似于SOMETHING VERSION,这意味着该版本始终位于名称之后): Efficient.Exclusive.Zip.Archiver-PROPER.v.122.24-EXTENDED Efficient.Exclusive.Zip.Archiver.123.01 Efficient

从内存流中获取子字符串,而无需将整个流转换为字符串

我希望能够从MemoryStream(最初来自zip中的xml文件)有效地获取子字符串.当前,我将整个MemoryStream读取为一个字符串,然后搜索所需的xml节点的开始和结束标签.这可以正常工作,但是文本文件可能很大,因此我想避免将整个MemoryStream转换为字符串,而是直接从流中提取xml文本的所需部

不在正则表达式中

我正在尝试编写一个正则表达式模式来查找不在引号内的特殊字符串.例如; where value = '~foo'; //no match where value = ~foo; //match 在找到像这样的特殊字符串之前,我可能会寻求; ^(?:(?!~).)* 但这对我没有帮助.如果我可以定义文字字符串“ not in”语句来解决我的问题.

Python-遍历字符串列表并分组部分匹配的字符串

所以我有一个字符串列表如下: list = ["I love cat", "I love dog", "I love fish", "I hate banana", "I hate apple", "I hate orange"] 我如何遍历列表并在没有给定关键字的情况下将部分匹配的字符串分组.结果应如下所示: list 1 = [["I love cat",&

MySQL,选择至少匹配X个字符的记录

我正在尝试完成以下任务.假设我们有一个包含这些字段(ID,内容)的表 1 |苹果 2 |菠萝 3 |应用 4 |国家 现在,我正在寻找一个可以告诉我所有可能的常见匹配的函数.例如,如果参数为“ 3”,则该函数将返回出现在多于一个记录中的3个字符中的所有可能字符串. 在这种情况下,我得到“ app

C匹配文件中的字符串并获取行号

我有一个包含前1000个婴儿名字的文件.我想问用户一个名字…搜索文件…然后告诉用户该名字代表男孩名字的等级和女孩名字的等级.如果它不是男孩名或女孩名,它会告诉用户它不在该性别的流行名称中. 该文件的布局如下: Rank Boy-Names Girl-Names 1 Jacob Emily 2 Michael

在python中反转字符串的最快方法

我能够提出两种不同的方法来反转Python中的字符串. Commonsense规定代码行越多,运行速度越慢. 我做了以下几行代码: 代码1 "".join(reversed(map(lambda x:x,st))) 码2 st[::-1] 这些表现相似.对于20000长的字符串,我无法看到甚至毫秒级的性能差异. 我认为第一个应该是一个较慢

javascript – 在两个字符串之间匹配字符串

如果我有这样的字符串: var str = "play the Ukulele in Lebanon. play the Guitar in Lebanon."; 我想得到每个子串“play”和“in”之间的字符串,所以基本上是一个带有“Ukelele”和“Guitar”的数组. 现在我正在做: var test = str.match("play(.*)in"); 但是在第一个“游戏”

返回Python中字符串中第一个非空白字符的最低索引

在Python中执行此操作的最短方法是什么? string = " xyz" 必须返回index = 3解决方法: >>> s = " xyz" >>> len(s) - len(s.lstrip()) 3

Python中的高性能模糊字符串比较,使用Levenshtein或difflib

我正在进行临床信息规范化(拼写检查),其中我检查每个给定的单词对900,000字的医学词典.我更关注时间复杂度/性能. 我想做模糊字符串比较,但我不确定使用哪个库. 选项1: import Levenshtein Levenshtein.ratio('hello world', 'hello') Result: 0.625 选项2: import difflib diffl

php – 如何检查字符串是否包含特定单词?

考虑: $a = 'How are you?'; if ($a contains 'are') echo 'true'; 假设我有上面的代码,如果($a包含’are’),编写语句的正确方法是什么?解决方法:您可以使用strpos()函数来查找另一个字符串中出现的一个字符串: $a = 'How are you?'; if (strpos($a, 'are') !== false) {

python – SequenceMatcher.ratio如何在difflib中工作

我正在尝试python的difflib模块,我遇到了SequenceMatcher.所以,我尝试了以下示例,但无法理解发生了什么. >>> SequenceMatcher(None,"abc","a").ratio() 0.5 >>> SequenceMatcher(None,"aabc","a").ratio() 0.4 >>> SequenceMatcher(No

负面观察正则表达式 – 只出现一次 – Java

我试图找到一个字符串是否只包含一个单词, 例如 String : `jjdhfoobarfoo` , Regex : `foo` --> false String : `wewwfobarfoo` , Regex : `foo` --> true String : `jjfffoobarfo` , Regex : `foo` --> true 多个foo可能发生在字符串中的任何地方,因此它们可以是非连续的, 我

python – 我怎样才能匹配单词而不管时态或形式?

我目前正在编写一个运行文档的脚本,提取所有关键字,然后尝试将这些关键字与其他文档中的关键字进行匹配.有一些细节使这个问题复杂化,但它们与我的问题不太相关.基本上我希望能够匹配单词而不管它们出现的时态. 例如:如果给出字符串“游泳”,“游泳”和“游泳”,我想要一个程序,可以

java中的高效字符串匹配

我有一串句子(推文)和1000多万个名字.我想确定一个句子(推文)是否包含1000万个名字中的一个.我可以为所有可能的模式编译正则表达式,但我真的想知道是否有一个有效的算法来做到这一点. 谢谢,解决方法:你可以建立a trie (a prefix tree).

在Python中一次迭代String字

我有一个巨大的文本文件的字符串缓冲区.我必须在字符串缓冲区中搜索给定的单词/短语.什么是有效的方法呢? 我尝试使用re模块匹配.但由于我有一个巨大的文本语料库,我必须搜索.这需要花费大量时间. 给出单词和短语词典. 我遍历每个文件,将其读入字符串,搜索字典中的所有单词和短语,并

字符串搜索在python中返回匹配的行

我是python中的新手.我想在文件的某些行中匹配字符串.让我们说, 我有字符串: british 7 German 8 France 90 我在文件中有一些行,如: <s id="69-7">...Meanwhile is the studio 7 album by British pop band 10cc.</s> <s id="15-8">...And Then There Were Thre

Python中的字符串匹配

有谁知道在Python中实现了哪种字符串匹配算法?解决方法:每the sources,它是一个 fast search/count implementation, based on a mix between boyer-moore and horspool, with a few more bells and whistles on the top. for some more background, see: 07001 有问

javascript – 如何为字符串数组实现.indexof?

如何简化以下代码?我怎样才能摆脱if语句?我想强调ajax响应中的一些行.现在我有两个字符串要比较=两个ifs.这个数字会增加,所以我想以其他方式这样做 – 使用需要突出显示的字符串数组,以防字符串是data_array元素的一部分. 我更喜欢javascript中的解决方案,但jQuery也可以. data

python – 检查单词列表中单词的子字符串匹配

我想检查单词列表中是否有单词. word = "with" word_list = ["without", "bla", "foo", "bar"] 我尝试了set(list)中的单词,但由于匹配字符串而不是item的事实,它没有产生想要的结果.也就是说,“with”是word_list中任何单词的匹配,但仍然如果set(list)中的“with”将表示True.

php – strstr()的参数计数错误

我在wordpres中使用帖子GUID构建了一个导航菜单,并发布标题,我只占用了标题的一部分并且这样做我正在做以下事情, $casestudylist .= "<li class='subnav'><a href=".$v->guid.">". strstr($v->post_title, ":", true)."</a></li>"; 但是我

php – 性能明智的字符串匹配

我有一个通用的数据库查询功能,每次发出SQL查询时都会运行以下检查: > if(preg_match(‘〜^(?:UPDATE | DELETE)~i’,$query)=== 1) > if(preg_match(‘〜^(?:UPDATE | DELETE)~IS’,$query)=== 1)> if((stripos($query,’UPDATE’)=== 0)||(stripos($query,’DELETE’)=== 0)) 我知道一

javascript – 给定更多输入,确定值是否可能与正则表达式匹配

我目前正在用JavaScript编写一个应用程序,我将输入与正则表达式匹配,但我还需要找到一种方法来将字符串与正则表达式的部分匹配. 例如: var invalid = "x", potentially = "g", valid = "ggg", gReg = /^ggg$/; gReg.test(invalid); //returns false (correct) gReg.

在Python中通过模糊字符串匹配匹配2个大型csv文件

我试图大约匹配600,000个人的姓名(全名)到另一个拥有超过8700万观察(全名)的数据库! 我对fuzzywuzzy库的第一次尝试太慢了,所以我决定使用更快的模块模糊集.假设我有一台足够强大的计算机来加载内存中的所有数据集,我将使用964个观测值的测试文件进行以下操作,以便与50,000个观察值

python – 找到与目标字符串N字符长度最小距离的“N Gram”子字符串

我正在寻找一种算法,最好用Python来帮助我找到最接近目标字符串N字符长的现有字符串,N字符长. 考虑目标字符串,即4个字符长,为: targetString -> '1111' 假设这是我可以使用的字符串(我将为“最佳对齐”匹配生成此字符串): nonEmptySubStrings -> ['110101'] 上面的子字符串长度