在python中识别字符串中子字符串的最有效方法?
作者:互联网
我需要为CPV(常见采购词汇)代码搜索相当冗长的字符串.
目前我正在使用一个简单的for循环和str.find()
问题是,如果CPV代码以稍微不同的格式列出,则此算法将找不到它.
什么是在字符串中搜索代码的所有不同迭代的最有效方法?是否只是重新格式化最多10,000个CPV代码并对每个实例使用str.find()的情况?
不同格式的示例可以如下
30124120-1
301241201
30124120 - 1
30124120 1
30124120.1
等等
谢谢 :)
解决方法:
试试正则表达式:
>>> cpv = re.compile(r'([0-9]+[-\. ]?[0-9])')
>>> print cpv.findall('foo 30124120-1 bar 21966823.1 baz')
['30124120-1', '21966823.1']
(修改,直到它与您的数据中的CPV紧密匹配.)
标签:python,string,fuzzy-search 来源: https://codeday.me/bug/20190827/1737800.html