【笔记】使用Gensim模块训练词向量
作者:互联网
【笔记】使用Gensim模块训练词向量
文章目录
1. 语料获取
参考 下载维基百科中文语料作为预训练数据集;
下载地址: zhWiki
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
选择一个时间段进行下载, 点进去,我们选择正文的语料,比如 zhwiki-20210120-pages-articles-multistream1.xml-p1p187712.bz2 ;
下载完得到一个压缩包,WikiPedia Extractor 工具可以帮助处理这个压缩包,提取正文语料;使用方法如下&
标签:训练,下载,模块,语料,Gensim,向量 来源: https://blog.csdn.net/Finks_Chen/article/details/116483637