其他分享
首页 > 其他分享> > 词袋模型:词语统计方法的文本向量化

词袋模型:词语统计方法的文本向量化

作者:互联网

原文:

       文本向量化表示——词袋模型 - 知乎 (zhihu.com)

 

通过阅读原文后,总结如下:

  词袋模型就是:

    对文本分词;

    对每个词语进行独热编码;

    统计词语出现的次数,加入到词语对应的维度上。

    最终得到的向量便是这个文本的向量。

 

  词袋模型的缺点:

    只用词语出现的频率来突出文本主题(或者说是代表文本),却忽略了词语之间语法和语序对文本意思的影响,这里举一个语序对文本意思带来的180度的影响的例子:

      文本一:

         我是你爸爸

      VS  

      文本二:

         你是我爸爸

      这两句话用词袋模型表示的向量是一样的,但是两句话的意思截然不同。

    

标签:词语,模型,词袋,文本,语序,向量
来源: https://www.cnblogs.com/hisi-tech/p/15844610.html