其他分享
首页 > 其他分享> > 词频统计

词频统计

作者:互联网

摘要: 学号(2017 ******197);
姓名:王浩铭
码云仓库地址:https://gitee.com/wojiubufu/word_frequency/tree/master
程序分析:
声明使用的方法
from string import punctuation

打开文件存到缓冲区
def process_file(dst): # 读文件到缓冲区
try: # 打开文件
f = open(dst,"r")
except IOError as s:
print (s)
return None
try: # 读文件到缓冲区
bvffer = f.read()
except:
print ("Read File Error!")
return None
f.close()

return bvffer

数据处理
def process_buffer(bvffer):
if bvffer:
word_freq = {}
# 下面添加处理缓冲区 bvffer代码,统计每个单词的频率,存放在字典word_freq
bvffer=bvffer.lower()
for x in 'f.read':
bvffer=bvffer.replace(x, " ")
words=bvffer.strip().split()
for word in words:
word_freq[word]=word_freq.get(word,0)+1

    return word_freq

输出top10结果
def output_result(word_frep):
if word_freq:
sorted_word_freq = sorted(word_freq.items(), key=lambda v: v[1], reverse=True)
for item in sorted_word_freq[:10]: # 输出 Top 10 的单词
print(item)

if name == "main":
import argparse
parser = argparse.ArgumentParser()
parser.add_argument('dst')
args = parser.parse_args()
dst = args.dst
bvffer = process_file(dst)
word_freq = process_buffe

输入python -m cProfile word_freq.py Gone_with_the_wind.txt 运行结果



输入python -m cProfile word_freq.py A_Tale_of_Two_Cities.txt运行结果



总结:
发现了自己对python的理解很多地方都不足,经过同学得帮助,百度上查找,完成了基本要求

标签:word,process,dst,bvffer,词频,return,freq,统计
来源: https://www.cnblogs.com/wojiubufu/p/10615327.html