词袋模型:词语统计方法的文本向量化
作者:互联网
原文:
文本向量化表示——词袋模型 - 知乎 (zhihu.com)
通过阅读原文后,总结如下:
词袋模型就是:
对文本分词;
对每个词语进行独热编码;
统计词语出现的次数,加入到词语对应的维度上。
最终得到的向量便是这个文本的向量。
词袋模型的缺点:
只用词语出现的频率来突出文本主题(或者说是代表文本),却忽略了词语之间语法和语序对文本意思的影响,这里举一个语序对文本意思带来的180度的影响的例子:
文本一:
我是你爸爸
VS
文本二:
你是我爸爸
这两句话用词袋模型表示的向量是一样的,但是两句话的意思截然不同。
标签:词语,模型,词袋,文本,语序,向量 来源: https://www.cnblogs.com/hisi-tech/p/15844610.html