其他分享
首页 > 其他分享> > jieba分词归纳总结

jieba分词归纳总结

作者:互联网

一、jieba介绍

  jieba是NLP中常用的中文分词库

二、词库

1、默认词库

  jieba 默认有349046个词,然后每行的含义是  : 词 词频 词性

  首先来看看jieba分词每次启动时,做了件什么事情,它做了2件事情:

  1. 加载结巴自身的默认词库
  2. 将默认词库模型 加载到本机缓存,之后每次都从本地缓存中去加载默认词库 缓存文件: jieba.cache

2、自定义词库

  jieba.load_userdict(config.keywords_path)

三、词性标注

  词性(词类)是词汇中剧本的语法属性,而词性标注是在给定句子中判定每个词的语法范畴,确定它的词性并加以标注的过程。

 

 

 

 

 

 

参考

标签:词性,word,归纳,jieba,默认,词库,分词,加载
来源: https://www.cnblogs.com/luyizhou/p/15530196.html