python-从列表中消除半重复项的高性能方法
作者:互联网
我有一系列困惑:莫尔斯电码字符串,字母或单词之间没有空格.我的计划是进行字典攻击,以找到最佳的解决方案候选人.我的武器是Python.
我有17000个英语单词的列表.我还列出了与拼图主题相关的单词,但这些单词的数量要少得多,如果这些单词出现,它们的得分应该会更高.
因此,在脚本的开头,当我生成单词列表时,我使用了一个形式为元组的列表(单词,scoremultiplier).这是一小部分:
[('zoned', 1.0),
('zonely', 1.0),
('zoner', 1.0),
('zones', 1.0),
('zoning', 1.0),
('zoo', 1.0),
('zoom', 1.0),
('zoomed', 1.0),
('zooming', 1.0),
('zooms', 1.0),
('zoos', 1.0),
('ten', 1.0),
('tens', 1.0),
('gnash', 1.0),
('shag', 1.0),
('75th', 2.0),
('seventy', 2.0),
('fifth', 2.0)]
在我将所有内容解析出来的文件中,我只想将高价值的单词放在最后,而不用手动摆脱文件主体中的任何重复项.因此,我需要写一些东西来摆脱第一个值等于后一个元组的早期元组.
我可以用蛮力做到这一点:
for firstkey, (firstword, firstfactor) in enumerate(wordlist):
for laterkey, (laterword, laterfactor) in enumerate(wordlist[firstkey+1:]):
if firstword == laterword:
del wordlist[firstkey]
break
但是仅脚本的那部分就花费了将近45秒钟,而我的17000个单词甚至还不是完整的字典. (该代码除完成时间外还未经测试,因此它甚至可能无法工作.)这似乎也非常不符合Python风格,尽管我现在正在学习Python(并且完全做了一些我的第一个编程工作)这个项目.
有一个更好的方法吗?我不能使用set(),因为重复的单词是不相等元组的一部分.我是否需要以某种方式重组我的数据?还是我应该准备每次运行一整分钟后都准备好?
解决方法:
我可能会误解这个问题,但是看来您可以从元组列表中生成一个字典.以后的值将自动覆盖以前的值:
lst = [
('foo', 1),
('bar', 2),
('foo', 10)
]
print dict(lst) # {'foo': 10, 'bar': 2}
标签:performance,data-structures,loops,python 来源: https://codeday.me/bug/20191127/2074712.html