首页 > 编程语言> > Python结巴（jieba）库之花拳绣腿

Python结巴（jieba）库之花拳绣腿

2022-01-27 09:03:32 作者：互联网

结巴（jieba）库是百度工程师Sun Junyi开发的一个开源库，在GitHub上很受欢迎。

作为优秀的中文分词第三方库， jieba最流行的应用是分词，除此之外，还可以做关键词抽取、词频统计等。

jieba支持四种分词模式：

1、安装

windows语境下，调用控制台，输入命令行：

pip install jieba

Linux语境下，则需针对python的不同版本（2.x或3.x），使用不同的安装命令：

pip3 install jieba

2、常用函数

函数	描述
jieba.lcut(s)	精确模式，返回一个列表类型的分词结果 >>> jieba.lcut('伟大的中国人民万岁！') ['伟大', '的', '中国', '人民', '万岁', '！']
jieba.lcut(s,cut_all=True)	全模式，返回一个列表类型的分词结果，有冗余 >>> jieba.lcut('伟大的中国人民万岁！',cut_all=True) ['伟大', '的', '中国', '国人', '人民', '万岁', '！']
jieba.lcut_for_search(s)	搜索引擎模式，返回一个列表类型的分词结果，有冗余 >>>jieba.lcut_for_search('伟大的中国人民万岁！万万岁！') ['伟大', '的', '中国', '人民', '万岁', '！', '万万', '万岁', '万万岁', '！']
jieba.add_word(w)	将新词w加入分词词典 >>>jieba.add_word('绝绝子')

标签：jieba,Python,模式,lcut,花拳绣腿,万岁,分词,冗余
来源： https://blog.csdn.net/iprobobo/article/details/122686102