词频统计
作者:互联网
摘要: 学号(2017 ******197);
姓名:王浩铭
码云仓库地址:https://gitee.com/wojiubufu/word_frequency/tree/master
程序分析:
声明使用的方法
from string import punctuation
打开文件存到缓冲区
def process_file(dst): # 读文件到缓冲区
try: # 打开文件
f = open(dst,"r")
except IOError as s:
print (s)
return None
try: # 读文件到缓冲区
bvffer = f.read()
except:
print ("Read File Error!")
return None
f.close()
return bvffer
数据处理
def process_buffer(bvffer):
if bvffer:
word_freq = {}
# 下面添加处理缓冲区 bvffer代码,统计每个单词的频率,存放在字典word_freq
bvffer=bvffer.lower()
for x in 'f.read':
bvffer=bvffer.replace(x, " ")
words=bvffer.strip().split()
for word in words:
word_freq[word]=word_freq.get(word,0)+1
return word_freq
输出top10结果
def output_result(word_frep):
if word_freq:
sorted_word_freq = sorted(word_freq.items(), key=lambda v: v[1], reverse=True)
for item in sorted_word_freq[:10]: # 输出 Top 10 的单词
print(item)
if name == "main":
import argparse
parser = argparse.ArgumentParser()
parser.add_argument('dst')
args = parser.parse_args()
dst = args.dst
bvffer = process_file(dst)
word_freq = process_buffe
输入python -m cProfile word_freq.py Gone_with_the_wind.txt 运行结果
输入python -m cProfile word_freq.py A_Tale_of_Two_Cities.txt运行结果
总结:
发现了自己对python的理解很多地方都不足,经过同学得帮助,百度上查找,完成了基本要求
标签:word,process,dst,bvffer,词频,return,freq,统计 来源: https://www.cnblogs.com/wojiubufu/p/10615327.html