其他分享
首页 > 其他分享> > 语言模型演化史

语言模型演化史

作者:互联网

语言模型演化史

在这里插入图片描述

Bag-of-words model

在传统的词袋模型当中,对于每一个词采用one-hot稀疏编码的形式,假设目标语料中共有N个唯一确认的词,那么需要一个长度N的词典,词典的每一个位置表达了文本中出现的某一个词。

在某一种特征表达下,比如词频、binary、tf-idf等,可以将任意词,或者文本表达在一个N维的向量空间里。凭借该向量空间的表达,可以使用机器学习算法,进行后续任务处理。
这种方式被称为n-gram语法,指文本中连续出现的n个语词。
当n分别为1、2、3时,又分别称为一元语法(unigram)、二元语法(bigram)与三元语法(trigram)。

词袋模型的缺点:

标签:表达,语言,模型,词袋,演化史,语法,文本
来源: https://blog.csdn.net/dzzxjl/article/details/121346417