其他分享
首页 > 其他分享> > IntroductionToNLP - ch02 - 2.1.2 词的性质—齐夫定律

IntroductionToNLP - ch02 - 2.1.2 词的性质—齐夫定律

作者:互联网

icwb2-data 数据集

由北京大学、香港城市大学、台湾 CKIP, Academia Sinica 及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。

其中 AS 和 CityU 为繁体中文数据集,PK 和 MSR 为简体中文数据集。

http://sighan.cs.uchicago.edu/bakeoff2005/data/icwb2-data.zip

自动下载失败,自己去下载一下。icwb2-data.zip - 50.2MB,还是会需要一点时间的。

这个期间,可学习下“齐夫定律”。http://www.cyzuo.cn/index.php/archives/21/

中文分词:指的是将一段文本拆分为一系列单词的过程。


 

标签:http,zip,icwb2,ch02,IntroductionToNLP,齐夫,data,分词
来源: https://www.cnblogs.com/hbuwyg/p/13155145.html