编程语言
首页 > 编程语言> > 在python中识别字符串中子字符串的最有效方法?

在python中识别字符串中子字符串的最有效方法?

作者:互联网

我需要为CPV(常见采购词汇)代码搜索相当冗长的字符串.

目前我正在使用一个简单的for循环和str.find()

问题是,如果CPV代码以稍微不同的格式列出,则此算法将找不到它.

什么是在字符串中搜索代码的所有不同迭代的最有效方法?是否只是重新格式化最多10,000个CPV代码并对每个实例使用str.find()的情况?

不同格式的示例可以如下

30124120-1 
301241201 
30124120 - 1
30124120 1
30124120.1

等等

谢谢 :)

解决方法:

试试正则表达式:

>>> cpv = re.compile(r'([0-9]+[-\. ]?[0-9])')
>>> print cpv.findall('foo 30124120-1 bar 21966823.1 baz')
['30124120-1', '21966823.1']

(修改,直到它与您的数据中的CPV紧密匹配.)

标签:python,string,fuzzy-search
来源: https://codeday.me/bug/20190827/1737800.html