【深度学习】语音信号的处理和表达
作者:互联网
1信号的特性?
·时域特性
·频域特性
2信号的频谱是什么?
·频谱是频率的分布曲线
复杂振荡分解为振幅不同和频率不同的谐振荡
谐振荡的幅值按频率排列的图形叫频谱
·是频率谱密度的简称
对信号的研究从 时域引到频域
不同频率
不同振幅
正弦波图
复合波
3语音信号分析
·时域分析
时域分析就是直接对信号的时域波形进行分析,提取出一些特征参数,比如短时能量和平均幅度、短时平均过零率、短时自相关函数和短时平均幅度差函数等。
语音信号的预处理?-加窗
·短时间之内语音信号视为不变,即语音信号具有短时平稳性,这样的话,就可以把语音信号分成分析帧来处理
·采用连续分段或者交叉分段的方法分帧 33~100帧/s
·帧之间要平滑过渡
·帧移是前后帧的交叠部分,与帧长的比值一般为0~0.5
·频域分析
短时的语音用时间依赖的方法处理 用Fourier变换(是用稳态分析处理非平稳信号的一种方法)
语音信号的频域分析就是分析语音信号的频域特征:包括语音信号的频谱、功率谱、倒谱、 频谱包络等
常用的频域分析的方法:带通滤波器组法、Fourier 变换法、同态分析、线性预测法
语音信号的短时频域分析可以解释为傅里叶变换或滤波器。
傅里叶变换??
分段方法:加一个沿时间轴滑动的窗函数;
◆通常窗的宽度有限;
◆对应于不同的 n 值,窗处于不同位置;
◆窗函数对语音信号的每个样本进行加权
当n变化时,窗w(n-m)沿着x(m)滑动。
w(n)的作用是在频域对原始信号平滑
N大,w(n)带宽小,保留细节多,时变性小
N小,w(n)带宽大,保留包络多,时变性大
如果窗长大于基音周期,STFT (短时傅里叶变换)具有较好的频率分辨率,如对于浊音的STFT谱,可分辨基音的谐波分量
如果窗长小于基音周期,STFT 给出谱包络(谱形状)
基于滤波器组的频域分析??
最早的频谱分析用滤波器组做
短时频域分析的应用??
用叠接相加法合成语音
频谱基音检测-抽取基顿上的频谱峰值
要求:语音中存在第一谐波分量;
但预处理等可能丢失信息,
更实际的方法:
◆检测所有的谐波峰值,
◆使用这些谐波的公约数或者相邻谐波
的距离来测量基频。
语音信号的数学模型??
激励模型、声道模型和辐射模型的串联
有三部分作用施加在语音的声波上:
声门产生的激励模型G(z);
激励模型分为浊音激励和清音激励。浊音产生间歇的脉冲波(类似于斜三角形的脉冲)激励波是一个以基音周期为周期的斜三角脉冲串
数学表达式为
N1为斜三角波上升部分的时间,N2为其下降部分的时间。
单个斜三角波波形的频谱是一个低通滤波器。
变换的全极模型的形式是
声道产生的调制函数V(z);
目前最常用的有两种建模方法。一是把声道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫“声管模型”。另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。
共振峰是DFT(离散傅里叶变换)之后选取频谱能量的局部最大点
一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。
声道模型
嘴唇产生的辐射函数R(z)。
从声道模型输出的是速度波ul (n),而语音信号是声压波Pl(n)。二者倒比称为辐射阻抗Zl,它表征口唇的辐射效应。如果认为口唇张开的面积远远小于头部的表面积,利用单板开槽辐射的处理方法,可以得到辐射阻抗,r近似为1
语音信号的传递函数由这三个函数级联而成,
即:H(z)=A·G(z)V(z)R(z)
在浊音的情况下,激励信号由一个周期脉冲发生器产生。所产生的序列是一个周期为T的冲激序列,T的倒数即为基音频率。为了使浊音的激励信号具有声门气流脉冲的实际波形,还需要使上述的冲激序列通过一个声门脉冲模型滤波器。
在清音的情况下,激励信号由一个随机噪声发生器产生。设其均值为0,方差为常数,幅度具有高斯概率分布。乘系数的作用是调节清音信号的幅度
语音信号的倒谱分析??
求取语音倒谱特征参数的过程,它可以通过同态处理来实现。
同态信号处理也称为同态滤波,实现了将卷积关系变换为求
和关系的分离处理,即解卷。
对语音信号进行解卷,可将语音信号的声门激励信息及声道响应信息分离开来,从而求得声道共振特征和基音周期,用于语音编码、合成、识别等。
对语音信号进行解卷,求取倒谱特征参数的方法有两种,一种是线性预测分析,一种是同态分析处理。
标签:频谱,表达,语音,频域,短时,信号,深度,基音 来源: https://blog.csdn.net/jw416/article/details/115487933