编程语言
首页 > 编程语言> > 语言模型变形金刚

语言模型变形金刚

作者:互联网

词嵌入

词嵌入目地:表明文字、了解文字。

Embedding是一种最典型的运用无监督信息内容提高监管难题功效的方式。

当字典容积非常大时,对英语单词开展one-hotencoding或hash编号所得到的词向量(wordvectors)的特点就是:稀少、高维空间、硬编码(hard-coded)。所以用词嵌入表明,特性与此相反:较密、低维,而且可以从数据信息中学到获得。

为了能掌握一个语汇的内涵,也可以根据它前后文(context)来获得。

例如几句文字:

那样,怎样通过词嵌入来表现这类相似的什么关系?

词嵌入方法

根据记数的词嵌入(countbased)

假如两个词语

wi

wj

经常一同发生,那样相对应的词嵌入

V(wi),V(wj)

理应比较接近。令:

V(wi)⋅V(wj)=Nij

就可以用以提升求得,

Nij

wi

wj

在文档中的共现频次。这一概念跟matrixfactorozation这个概念十分相似,用这种方法的一个象征性的事例是Glovevector。

根据预测分析(predictionbased)

实体模型:给出前面一个或多个词,预测分析下一个词(预测分析词集中化每一个词是下一次发生的几率)。假设实体模型是多层感知机模型。

在我们练习获得这样一个预测模型以后,相似的词应具有同样的导出,在多层感知机图模型第一个隐藏层应具备相似的表明,所以可以用第一个隐藏层作为wordembedding。

这类由一个单词的前文,去预测分析这个单词的实体模型与Bengio于2003年所提出的神经元网络语言模型(NNLM,JMLR2003)十分类似。NNLM的重要目标就是需要学习一个处理语言模型任务网络架构,语言模型就是为了见到前文预测分析下面。

实体模型营销推广:上面说的实体模型是通过前几个词预测分析下一个词,能够扩展到由前后文预测分析现阶段词,即CBOW实体模型。及其拿正中间的词预测分析context,即Skip-gram.

多语种置入:Multi-lingualEmbedding,例如中英,假如语汇之间有一一对应之间的关系(如“现磨咖啡”与cofee),那样我们怎样促使设备可以了解不一样语言的表达词相匹配同一含意?能够在获得中英的差异embedding以后,再训练一个实体模型各自将中英投射到同一空间中非常接近位置。

语言模型

最先详细介绍最基本的N-gram模型,再介绍Word2vec,随后先后详细介绍现代化的基于深度学习的语言模型,如BERT预训练模型。

预训练语言模型发展趋势层面有许多,比如多模态、跨语言表达、粒度分布范畴、位置编码等。

粒度分布范畴层面:从细粒度学习培训、粗粒度学习培训,向多粒度学习与成长

位置编码层面:从肯定位置编码、相对性位置编码,向混和位置编码发展趋势

文中仅详细介绍一部分层面和实体模型。

N-gram

N元词法都是基于n-1阶马尔科夫链的几率语言模型,其中n考量了计算复杂度和实体模型精确性。N元词法实体模型根据马尔科夫假定优化了语言模型计算,尽管该假定并不是一定创立。马尔科夫假定就是指一个词的诞生只与前边n个词有关,即n阶马尔科夫链(Markovchainofordern),根据n-1阶马尔科夫链,语言模型为:

P(w1,w2,...,wT)≈∏t=1P(wt|wt−(n−1),...,wt−1)

疑惑度perplexity

疑惑度(Perplexity,PP)应该是交叉熵损失函数公式做指数运算后所得到的值,主要用于点评语言模型的好与坏,是一个简易、切实可行的判断指标值。

设N-gram模型

M=P(wi|wi−N+1...wi−1)

的交叉熵损失为

H(W)=−1Nlog2⁡P(w1w2...wN)

疑惑度界定为:

Perplexity(W)=2H(W)=P(w1w2…wN)−1N=1P(w1w2…wN)N=∏i=1N1P(wi∣w1…wi−1)N

语句的几率越多,语言模型就越好,疑惑值越小。N-gram给的英语单词编码序列信息内容越大,疑惑度也越小。自然减少疑惑度不一定确保能够提升NLP每日任务性能。

参照:SpeechandLanguageProcessing

word2vec2013

EfficientEstimationofWordRepresentationsinVectorSpace

DistributedRepresentationsofWordsandPhrasesandtheirCompositionality

word2vec(NIPS2013)能把对文字段落的处理方法简单化为K维线性空间里的向量运算,而线性空间的相似性可用于表明文字语义上的相似性。而one-hot表示没法精确表述不一样词间的相似性,例如余弦相似度为0。word2vec将每一个词表明成一个定长空间向量,比one-hot的层面低些。把词投射为实数域空间向量的专业技术又叫词嵌入。

版权归原作者全部。商业服务转截可联系创作者得到受权,非商用转截请原作者。

全文:https://www.cnblogs.com/makefile/p/transformers.html © 康行天底下

版权归原作者全部。商业服务转截可联系创作者得到受权,非商用转截请原作者。

全文:https://www.cnblogs.com/makefile/p/transformers.html © 康行天底下

版权归原作者全部。商业服务转截可联系创作者得到受权,非商用转截请原作者。

全文:https://www.cnblogs.com/makefile/p/transformers.html © 康行天底下

标签:c语言,系列,协变,术语,结构,student,person,参数
来源: