首页 > 其他分享> > 词袋模型：词语统计方法的文本向量化

词袋模型：词语统计方法的文本向量化

2022-01-25 22:03:14 作者：互联网

原文：

通过阅读原文后，总结如下：

　　词袋模型就是：

　　　　对文本分词；

　　　　对每个词语进行独热编码；

　　　　统计词语出现的次数，加入到词语对应的维度上。

　　　　最终得到的向量便是这个文本的向量。

　　词袋模型的缺点：

　　　　只用词语出现的频率来突出文本主题（或者说是代表文本），却忽略了词语之间语法和语序对文本意思的影响，这里举一个语序对文本意思带来的180度的影响的例子：

　　　　　　文本一：

　　　　　　　　　我是你爸爸

　　　　　　文本二：

　　　　　　　　　你是我爸爸

　　　　　　这两句话用词袋模型表示的向量是一样的，但是两句话的意思截然不同。

标签：词语,模型,词袋,文本,语序,向量
来源： https://www.cnblogs.com/hisi-tech/p/15844610.html