编程语言
首页 > 编程语言> > Python结巴(jieba)库之花拳绣腿

Python结巴(jieba)库之花拳绣腿

作者:互联网

       结巴(jieba)库是百度工程师Sun Junyi开发的一个开源库,在GitHub上很受欢迎。

       作为优秀的中文分词第三方库, jieba最流行的应用是分词,除此之外,还可以做关键词抽取、词频统计等。

        jieba支持四种分词模式:

1、安装

        windows语境下,调用控制台,输入命令行:

pip install jieba

        Linux语境下,则需针对python的不同版本(2.x或3.x),使用不同的安装命令:

pip3 install jieba

2、常用函数

函数描述
jieba.lcut(s)

精确模式,返回一个列表类型的分词结果

>>> jieba.lcut('伟大的中国人民万岁!')

['伟大', '的', '中国', '人民', '万岁', '!']

jieba.lcut(s,cut_all=True)

全模式,返回一个列表类型的分词结果,有冗余

>>> jieba.lcut('伟大的中国人民万岁!',cut_all=True)

['伟大', '的', '中国', '国人', '人民', '万岁', '!']

jieba.lcut_for_search(s)

搜索引擎模式,返回一个列表类型的分词结果,有冗余

>>>jieba.lcut_for_search('伟大的中国人民万岁!万万岁!')

['伟大', '的', '中国', '人民', '万岁', '!', '万万', '万岁', '万万岁', '!']

jieba.add_word(w)

将新词w加入分词词典

>>>jieba.add_word('绝绝子')

标签:jieba,Python,模式,lcut,花拳绣腿,万岁,分词,冗余
来源: https://blog.csdn.net/iprobobo/article/details/122686102