其他分享
首页 > 其他分享> > 【笔记】使用Gensim模块训练词向量

【笔记】使用Gensim模块训练词向量

作者:互联网

【笔记】使用Gensim模块训练词向量

文章目录

1. 语料获取

参考 下载维基百科中文语料作为预训练数据集;

下载地址: zhWiki

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这里插入图片描述

选择一个时间段进行下载, 点进去,我们选择正文的语料,比如 zhwiki-20210120-pages-articles-multistream1.xml-p1p187712.bz2

下载完得到一个压缩包,WikiPedia Extractor 工具可以帮助处理这个压缩包,提取正文语料;使用方法如下&

标签:训练,下载,模块,语料,Gensim,向量
来源: https://blog.csdn.net/Finks_Chen/article/details/116483637