Python结巴(jieba)库之花拳绣腿
作者:互联网
结巴(jieba)库是百度工程师Sun Junyi开发的一个开源库,在GitHub上很受欢迎。
作为优秀的中文分词第三方库, jieba最流行的应用是分词,除此之外,还可以做关键词抽取、词频统计等。
jieba支持四种分词模式:
- 精确模式:试图将句子最精确地切开,不存在冗余单词;
- 搜索引擎模式:在精确模式基础上,对长词再次切分,提高召回率,适用于搜索引擎分词;
- 全模式:把句子中所有的可以成词的词语都扫描出来,有冗余;
- paddle模式,利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。
1、安装
windows语境下,调用控制台,输入命令行:
pip install jieba
Linux语境下,则需针对python的不同版本(2.x或3.x),使用不同的安装命令:
pip3 install jieba
2、常用函数
函数 | 描述 |
---|---|
jieba.lcut(s) | 精确模式,返回一个列表类型的分词结果 >>> jieba.lcut('伟大的中国人民万岁!') ['伟大', '的', '中国', '人民', '万岁', '!'] |
jieba.lcut(s,cut_all=True) | 全模式,返回一个列表类型的分词结果,有冗余 >>> jieba.lcut('伟大的中国人民万岁!',cut_all=True) ['伟大', '的', '中国', '国人', '人民', '万岁', '!'] |
jieba.lcut_for_search(s) | 搜索引擎模式,返回一个列表类型的分词结果,有冗余 >>>jieba.lcut_for_search('伟大的中国人民万岁!万万岁!') ['伟大', '的', '中国', '人民', '万岁', '!', '万万', '万岁', '万万岁', '!'] |
jieba.add_word(w) | 将新词w加入分词词典 >>>jieba.add_word('绝绝子') |
标签:jieba,Python,模式,lcut,花拳绣腿,万岁,分词,冗余 来源: https://blog.csdn.net/iprobobo/article/details/122686102