其他分享
首页 > 其他分享> > AIBigKaldi(六)| Kaldi的单音子模型训练(下)

AIBigKaldi(六)| Kaldi的单音子模型训练(下)

作者:互联网

 本文来自公众号“AI大道理”。

 

构造好训练图接下来就可以进行训练了。
所谓训练就是在训练图上进行解码,获得最优路径的同时得到对齐序列,根据对齐序列进行统计信息量。
转移概率可以进行数数获得,GMM参数随着对齐的帧数变化而更新,同时GMM分量从一开始的单高斯split出更多的高斯。
如此不断迭代训练获得单音子模型。
 

4 强制对齐


3.3 align-equal-compiled

align-equal-compiled 和gmm-align-compiled功能比较类似。

align-equal-compiled 在训练前执行一次即可,

gmm-align-compiled 在训练时调用。

功能:
对每一句话,根据这句话的特征和这句话的fst,生成对应的对齐状态序列。
训练时需要将标注跟每一帧特征进行对齐,由于现在还没有可以用于对齐的模型,所以采用最简单的方法 -- 均匀对齐
输入:预编译训练图HCLG.fst、特征
输出:alignment,就是语音每帧对应的HMM state。

输入只有一个图,要得到alignment,需要对图进行viterbi 解码,找到最优路径。
gmm-align-compiled 在训练中执行,而训练中我们不断更新WFST中各个概率参数,使得解码更加准确。

源码解析:


过程之道:

结果:
得到alignment。
/kaldi-trunk/src/bin/copy-int-vector "ark:gunzip -c ali.1.gz|" ark,t:- | head -n 1

0_0_0_0_1_1_1_1为语音id。
后面每个数字都代表一个transition-id。
每个transition-id对应一个状态转移,并且可以映射到唯一的音素上。
每一个transition-id对应一帧,这就是所谓的对齐。
 

5 提取特征统计信息量
 

3.4 gmm-acc-stats-ali
功能:
(EM算法之E步)
对对齐后的数据进行训练,获得中间统计量,每个任务输出到一个acc文件。
acc中记录跟HMM 和GMM 训练相关的统计量。
HMM 相关的统计量:两个音素之间互联的边(Arc) 出现的次数。
GMM 相关的统计量:每个pdf-id 对应的特征累计值和特征平方累计值。

输入:模型model,特征,对齐序列alignment

输出:用于训练的统计量

 

源码解析:

过程之道:


结果:
根据对齐信息,计算每个高斯分布的均值和方差。

 

6 GMM模型迭代
 

3.5 gmm-est
功能:
(EM算法之M步)
根据上一次的模型,构建新模型 [[x+1].mdl。
输入:上一步训练后的模型、gmm-acc-stat-ali计算的统计量
输出:新模型


源码解析:


过程之道:


 

7 迭代训练


功能:
迭代训练:对齐、统计、更新模型

源码解析:

需要注意的是GMM模型一开始是单高斯的,随着模型的训练不断分裂出高斯来,最终达到设定的高斯数。

如何分裂的呢?

模型结果:
 

 

8 总结


一个问题:
单音子模型的假设是一个音素的实际发音与其左右的音素无关。
这个假设与实际并不符合。
由于单音子模型过于简单,识别结果不能达到最好,因此需要继续优化升级。
就此引入多音子的模型。
最为熟悉的就是三音子模型,即上下文相关的声学模型。

不管模型好坏先进行解码试试效果。
解码之前先构建HCLG图。

 

 

下期预告

AIBigKaldi(七)|  Kaldi的解码图构造

往期精选

AIBigKaldi(五)|  Kaldi的单音子模型训练(上)

AIBigKaldi(四)|  Kaldi的特征提取

AIBigKaldi(三)|  Kaldi的数据准备

AIBigKaldi(二)|  Kaldi的I/O机制

AIBigKaldi(一)|  Kaldi的目录结构

AI大语音(十四)——区分性训练
AI大语音(十三)——DNN-HMM
AI大语音(十二)——WFST解码器(下)
AI大语音(十一)——WFST解码器(上)

AI大语音(十)——N-gram语言模型
AI大语音(九)——基于GMM-HMM的连续语音识别系统
AI大语音(八)——GMM-HMM声学模型
AI大语音(七)——基于GMM的0-9语音识别系统
AI大语音(六)——混合高斯模型(GMM)
AI大语音(五)——隐马尔科夫模型(HMM)
AI大语音(四)——MFCC特征提取
AI大语音(三)——傅里叶变换家族
AI大语音(二)——语音预处理
AI大语音(一)——语音识别基础

 

 ——————

 

浅谈则止,细致入微AI大道理

扫描下方“AI大道理”,选择“关注”公众号

 

—————————————————————

     

—————————————————————

 

投稿吧   | 留言吧

 


 

 

标签:训练,GMM,AI,模型,Kaldi,单音,AIBigKaldi,语音,对齐
来源: https://blog.csdn.net/qq_42734492/article/details/111464381