其他分享
首页 > 其他分享> > tokenize embeding word2wec...词表,词嵌入,分词...都是干什么的

tokenize embeding word2wec...词表,词嵌入,分词...都是干什么的

作者:互联网

在NLP任务中,输入的大多是一个句子,多个句子组成一个batch。模型本身不能直接处理文本,所以需要先把文本转化成数字。流程大多数是:
分词->构建词表->词嵌入

词表和词嵌入权重,一定要在训练完毕后保存下来,推理必须使用和训练相同的词表、词嵌入。

标签:...,嵌入,词表,句子,token,tokenize,分词
来源: https://www.cnblogs.com/wangbingbing/p/16533174.html