其他分享
首页 > 其他分享> > 《数字语音处理》- 3. 基于MATLAB的LPC分析

《数字语音处理》- 3. 基于MATLAB的LPC分析

作者:互联网

基于MATLAB的语音信号LPC分析

实验3 基于MATLAB的语音信号LPC分析

目录

1. 实验目的及要求

本实验要求:按所学相关语音处理的知识,通过网上学习、资料查阅,设计程序,给出某一语音信号的LPC分析结果,包括LPC谱、LPCC谱的分析结果,并借助LPC分析方法检测所分析语音信号的基音周期和共振峰,写出实验报告(按一般科学论文的写作规范)。

2. 实验原理

2.1LP分析基本原理

LP分析为线性时不变因果稳定系统V(z)建立一个全极点模型,并利用均方误差准则,对已知的语音信号s(n)进行模型参数估计。

如果利用P个取样值来进行预测,则称为P阶线性预测。假设用过去P个取样值[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fuViIDLC-1622967454270)(数字语音实验3.files/image004.png)]的加权之和来预测信号当前取样值[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-06oB7jkW-1622967454272)(数字语音实验3.files/image006.png)],则预测信号[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-te44cLoX-1622967454274)(数字语音实验3.files/image008.png)]为:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AwKC2rt0-1622967454275)(数字语音实验3.files/image010.png)] (2.1)

其中加权系数用[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pHWPXbD4-1622967454277)(数字语音实验3.files/image012.png)]表示,称为预测系数,则预测误差为:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CI6jhuic-1622967454279)(数字语音实验3.files/image014.png)] (2.2)

要使预测最佳,则要使短时平均预测误差最小有:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LYgwZn8b-1622967454280)(数字语音实验3.files/image016.png)] (2.3)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nFOEC39S-1622967454281)(数字语音实验3.files/image018.png)] (2.4)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qkdOanzG-1622967454282)(数字语音实验3.files/image020.png)] (2.5)

最小的[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aac4Wv2s-1622967454284)(数字语音实验3.files/image022.png)]可表示成:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ie0rLPrc-1622967454284)(数字语音实验3.files/image024.png)] (2.6)

显然,误差越接近于零,线性预测的准确度在均方误差最小的意义上为最佳,由此可以计算出预测系数。

2.2自相关法

在最佳线性预测中,若用下式定义的时间平均最小均方准则代替(3)式的集合平均最小均方准则,即令

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mmwtmc2O-1622967454286)(数字语音实验3.files/image026.png)] (2.7)

事实上就是短时自相关函数,因而

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-70sNJdrb-1622967454287)(数字语音实验3.files/image028.png)] (2.8)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-g3habEQH-1622967454288)(数字语音实验3.files/image030.png)] (2.9)

根据平稳随机信号的自相关性质,可得

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7IqMYBvp-1622967454289)(数字语音实验3.files/image032.png)] (2.10)

由(6)式,可得:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8gmjeDJ3-1622967454290)(数字语音实验3.files/image034.png)] (2.11)

综上所述,可以得到如下矩阵形式:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JDLiaTyB-1622967454291)(数字语音实验3.files/image036.png)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qIQlmNkz-1622967454292)(数字语音实验3.files/image038.png)]

(2.12)

值得注意的是,自相关法在计算预测误差时,数据段[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Pmv9mFpB-1622967454293)(数字语音实验3.files/image040.png)]的两端都需要加P个零取样值,因而可造成谱估计失真。特别是在短数据段的情况下,这一现实更为严重。另外,当预测系数量化时,有可能造成实际系统的不稳定。

自相关解法主要有杜宾算法、格型算法和舒尔算法等几种高效递推算法。

2.3协方差法

如果在最佳线性预测中,用下式定义的时间平均最小均方准则代替(2.3)式的集合平均最小均方准则,则可得到类似的方程:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XAXIBCHB-1622967454293)(数字语音实验3.files/image042.png)] (2.13)

可以看出,这里的数据段两端不需要添加零取样值。在理论上,协方差法计算出来的预测系数有可能造成预测误差滤波器的不稳定,但在实际上当每帧信号取样足够多时,其计算结果将与自相关法的结果很接近,因而稳定性一般是能够保证的 (当然这种方法也有量化效应可能引起不稳定的缺点)。

协方差解法的最大优点在于不存在自相关法中两端出现很大预测误差的情况,在N和P相差不大时,其参数估值比自相关法要精确的多。但是在语音信号处理时,往往取N在200左右。此时,自相关法具有较大误差的段落在整个语音段中所占的比例很小,参数估值也是比较准确的。在这种情况下,协方差法误差较小的优点就不再突出,其缺乏高效递推算法的缺点成为了制约因素。所以,在语音信号处理中往往使用高效的自相关法。

2.4全极点声道模型

将线性预测分析应用于语音信号处理,不仅是为了利用其预测功能,更因为它提供了一个非常好的声道模型。

将式(2.2)所示的方程看成是滤波器在语音信号激励下的输入输出方程,则该滤波器称为预测误差滤波器,其e(n)是输出误差。变换到z域,P阶预测误差滤波器的系统函数为:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YwQEWtxh-1622967454294)(数字语音实验3.files/image044.png)] (2.14)

可以看出,如果将预测误差e(n)作为激励信号,使其通过预测误差滤波器的逆滤波器H(Z),即:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-f0sn8LOv-1622967454295)(数字语音实验3.files/image046.png)] (2.15)

则H(Z)的输出为语音信号s(n),也就是说,H(Z)在预测误差e(n)的激励下可以合成语音。因此,H(Z)被称为语音信号的全极点模型,也称为语音合成器。该模型的参数就是P阶线性预测的预测系数[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6uC4DnVA-1622967454296)(数字语音实验3.files/image048.png)]。

2.5LPCC

如果声道特性H(Z)用式(2.14)所示的全极点模型表示,有

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fBRRaYBY-1622967454296)(数字语音实验3.files/image050.png)] (2.16)

式中,S(z)和I(z)分别为语音信号[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dZt9nkgs-1622967454297)(数字语音实验3.files/image052.png)]和激励源[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xXODA7n8-1622967454298)(数字语音实验3.files/image054.png)]的Z变换。对人的听觉来说,浊音是最重要的语音信号。对于浊音,模型的激励信号源e(n)是以基音周期重复的单位脉冲,此时有[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NNa7iQAK-1622967454299)(数字语音实验3.files/image056.png)]。可得[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-n4SfhiYm-1622967454300)(数字语音实验3.files/image057.png)]的Z变换S(z)为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0F1hvzuQ-1622967454301)(数字语音实验3.files/image059.png)] (2.17)

式中,[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o9FuqsRH-1622967454301)(数字语音实验3.files/image060.png)]为P阶线性预测系数。根据倒谱的定义,对具有最小相位特征的语音信号[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PM7wNpEn-1622967454302)(数字语音实验3.files/image052.png)],有

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vJfa3dh3-1622967454303)(数字语音实验3.files/image062.png)] (2.18)

式中,[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-k04Qt4Zt-1622967454303)(数字语音实验3.files/image064.png)]为语音信号的倒谱。将式(16)代入式(17),并对两边[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-roNGHKd0-1622967454304)(数字语音实验3.files/image066.png)]求导,得

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TwNmB5M6-1622967454304)(数字语音实验3.files/image068.png)] (2.19)

根据上式即可由线性预测系数通过递推得到倒谱系数,将这样得到的倒谱称为线性预测倒谱系数。

2.6模型增益G

模型的激励信号[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B1I82CiK-1622967454305)(数字语音实验3.files/image070.png)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Q7yJ7dUt-1622967454305)(数字语音实验3.files/image072.png)]表示为:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QsezBu50-1622967454307)(数字语音实验3.files/image074.png)] (2.20)

预测误差e(n)如式(2.2),这样当实际的预测系数与模型系数相等时,有

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S1Vdq5AF-1622967454307)(数字语音实验3.files/image076.png)] (2.21)

这说明激励信号正比于误差信号,其比例常数等于模型增益G。通常假设误差信号的能量等于输入激励信号的能量,因此可以得到:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DaQRgCdB-1622967454308)(数字语音实验3.files/image078.png)] (2.22)

对于式中的激励信号[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UucC4pnr-1622967454309)(数字语音实验3.files/image080.png)],主要分为浊音和清音两种情况。其中为浊音时,考虑到此时实际的激励信号为声门脉冲,因此可以将激励信号表示为[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xOtdjM8n-1622967454309)(数字语音实验3.files/image082.png)]时的单位抽样。为了保证这个假设成立,要求分析的区间应该大致和语音基因周期的长度相等。当语音为清音时,我们假定激励信号[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jMh3nmc7-1622967454310)(数字语音实验3.files/image080.png)]为一个零均值、单位方差的平稳白噪声过程。

采用自相关解法时,浊音的模型增益为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TEnijB56-1622967454310)(数字语音实验3.files/image084.png)] (2.23)

清音计算模型增益的公式和浊音相同。

3. 实验结果与分析


3.1线性预测与误差

clc;clear;close all;

MusicSource=audioread(‘F:\study\数字语音处理\实验\通信174班马恩瑞2017136412\experiment_code\Dream_It_Possible.flac’);

Music_source = MusicSource’;

N = 320;

Hamm = hamming(N);

frame = input('请键入想要处理的帧位置 = ');

origin = Music_source(((frame - 1) * (N / 2) + 1)

标签:img,源站,外链,MATLAB,语音,LPC,防盗链,图片
来源: https://blog.csdn.net/meenr/article/details/117629793