Python正则表达式非贪婪表现得像贪婪
作者:互联网
我正在处理成绩单,并且在以非贪婪的方式匹配模式方面遇到困难.它仍然抓得太多,看起来像在做贪婪的比赛.
成绩单如下:
>> John doe:您好,我是John Doe.
>>你好,我是Jane Doe.
>>感谢您的光临,我们将在两分钟后开始.
>>山姆史密斯:[没有音频]大家早上好.
要在>>中找到发言人的姓名(无论名称):我写道
pattern=re.compile(r'>>(.*?):')
transcript='>> John doe: Hello, I am John Doe. >> Hello, I am Jane Doe. >> Thank you for coming, we will start in two minutes. >> Sam Smith: [no audio] Good morning, everyone.'
re.findall(pattern, transcript)
我期待’John Doe’和’Sam Smith’,但它给了我’John Doe’和’你好,我是Jane Doe. >>感谢您的光临,我们将在两分钟后开始. >>山姆史密斯’
我很困惑因为.*?是非贪婪的,我认为应该能够抓住’Sam Smith’.我该如何修复代码,以便它只能抓取任何内容
>> (无论名称):?另外,我使用的是Python 3.6.
谢谢!
解决方法:
你真的需要正则表达式吗?您可以拆分>>提示然后过滤掉你的名字.
>>> [i.split(':')[0].strip() for i in transcript.split('>>') if ':' in i]
['John doe', 'Sam Smith']
标签:non-greedy,python,python-3-x,regex,regex-greedy 来源: https://codeday.me/bug/20190731/1587394.html