首页 > 其他分享> > 【记录】白吃小学生知识点记录

【记录】白吃小学生知识点记录

2022-02-02 11:34:06 作者：互联网

1、时序模型中，当前数据跟之前观察到的数据相关。
2、自回归模型使用自身过去数据来预测未来。
3、马尔可夫模型假设当前只跟最近少数数据相关，从而简化模型。
4、潜变量模型使用潜变量来概括历史信息。

文本预处理
把文本当作时序序列，文本中的字符、字、词当作变量，这些变量都是有时序信息的。文本预处理主要研究，如何把文本中的这些字、词变成计算机能够处理训练的东西。
1、将数据集读取到由多条文本行组成的列表中；
2、将每行的文本序列拆分成一个标记列表（词元：token）；
（1）英文：
词：作为一个基本的单元，简单；
字符串：作为一个基本单元；
（2）中文：
字：作为一个基本的单元；
词：要作分词操作，jieba分词；
3、构建一个字典，即词汇表，用来将字符串类型的标记（token）映射到从0开始的数字索引中；结果是给一个token返回一个对应的下标，或者是unknown；最终将每个文本行转换成一个数字索引列表。

语言模型
给定文本序列x1…xT，语言模型的目标是估计联合概率P（x1…xT）
应用：
1、做预训练模型（eg：BERT，GPT-3），微调其他模型；
2、生成文本，给定前面几个词，不断采样下一个词；
3、判断多个序列中哪个更常见（电脑打字的时候自动生成、纠错）；

N元语法：
当序列很长时，因为文本量不够大，很可能n（x1…xT）《=1
使用马尔科夫假设可以缓解这个问题：
一元语法：p（x1，x2，x3，x4）=p（x1）p（x2）p（x3）p（x4）
二元语法：p（x1，x2，x3，x4）=p（x1）p（x2|x1）p（x3|x2）p（x4|x3）
三元语法：p（x1，x2，x3，x4）=p（x1）p（x2|x1）p（x3|x1，x2）p（x4|x1，x2，x3）

标签：知识点,x1,记录,模型,白吃,x2,x3,文本,x4
来源： https://blog.csdn.net/weixin_44082645/article/details/122767977