Python 中的 “jieba库”
作者:互联网
目录
壹:介绍
Python第三方库 "jieba库" 的功能是对中文进行分词;"jieba库" 就像一把美工刀,而中文文本为一张精美的彩纸,我们用美工刀将彩纸裁剪成一小块一小块。
在这一篇博文里,"jieba库" 将与 "词频统计" 联动。意思是说,会有很多Python干货作为内容的补充哦。
—— Violet
贰:安装
推荐采用,镜像法安装:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba
大家可以新建一个 “txt文本文档” ,将这段指令保存起来(因为其他库的安装也是类似的,将库名替换一下就行)。
叁:准备
既然说到词频统计,那么,没有知识点的储备,与,事先准备好的文本是不行的,对吧?
"Follow me."
《基本知识》 | |
jieba.lcut(txt) | 对 txt 进行精确分词。 |
下面是文本(可以考虑按住"Shift键"复制)。
......
日期:2020年4月17日 天气:雨
今天,特别。为什么?因为,今天是4月的第三个星期五。
也许你会问:“这有什么特别的呀?”我想说,每一天都是独特的礼物,它独一无二,它只存在一天。
“那么,为什么不去珍惜它呢?”
明天,星期六;后天,星期天。“全省适应性考试”(类似高考的操作流程)。啊呀呀,到了这一天吗?感慨感慨。
总之,不论怎样,自己都要好好地去完成它呀!或许,通过这次考试我能获得些新的什么也说不定哦。
《看天下》确实是一本有趣的杂志。
当然,前提是你能静下心去阅读。以前呢,阅读《看天下》,自己的感受是——信息量好大!文章好长!怎么可能静下心来去阅读嘛!
但,随着年岁的增长(我觉得,用这个词也还行),或许是我老了,自己也逐渐变得稳重,心智也慢慢地成熟......也许,大概,可能是因为这一原因吧?
自己可以安静下来阅读这本杂志的原因(部分),以上。
这页好像要写完了,换行吧。
因为今天是特别的,所以在这个特别的日子里自己想将这篇日记写得长一些。
高考,自己的理想大学是哪?
我想是,北京外国语大学。对于语言,自己有种说不上来的感觉,喜欢(病句?)。
如果,你问我为什么喜欢(倒也不会觉得你烦)。
我觉得,我回答不上来,因为,喜欢是不需要理由的,至少,我是这样觉得的。
那么,自己就更要“好好学习,天天向上”了(姨母笑)。
后天,星期天。考完试后,出去理发。然后,回家吃饭。停下笔回想,自己上次出校是在半个月前吧?
截至今日中午,全球新冠病毒累计确诊病例已经是199万+,接近200万了。这真的是一件值得深思的问题。
“人与自然的矛盾,社会的恐慌,高失业率,两极分化问题......”
我们确实是面临着许多问题,矛盾。但这并不意味着我们不去解决它们。
一面墙,是由一块一块的砖堆砌起来的,一件事的解决是这样,一个人的一生也是这样。
......
—— Violet
肆:代码
以下是代码。
# -*- coding: utf-8 -*-
"""
Created on Thu Jan 20 12:09:10 2022
@author: will
"""
#%%
# 调用函数库。
import jieba
#%%
# 获取文本。
txt = open("日记.txt","r",encoding = "utf-8").read()
#%%
# 分词。
words = jieba.lcut(txt)
#print(words) # 查看分词后的结果。
#%%
# 处理。
List = list()
for word in words:
if len(word) == 1:
pass
else:
List.append(word)
#print(List)
#%%
# 创建计数器。
dic = dict()
for word in List:
dic[word] = dic.get(word,0) + 1
#print(dic)
#%%
# 排序。
item = list(dic.items())
#print(item)
item.sort(key=lambda x:x[1],reverse=True)
#print(item) #如果将"1"修改为"0",结果会有什么变化呢?试试看吧!
#%%
# 导出结果。
for i in range(10):
word,count = item[i]
print("{0:<10}{1:>4}".format(word,count))
#%%
# 待优化。
Emm,,这是运行结果图,不过显示的时候好像错位了,伙伴们,能告诉博主该怎么解决问题吗?(疑惑)
伍:最后
“你是谁?你从哪里来?你要到哪里去?” 好好地回答这个问题对于提升自己的能力会很有帮助。
—— Violet
标签:jieba,word,Python,#%%,dic,print,txt 来源: https://blog.csdn.net/VioletWill/article/details/122594507