其他分享
首页 > 其他分享> > 语音信号特征处理--Fbank\MFCC

语音信号特征处理--Fbank\MFCC

作者:互联网

目录

代码地址:(6.1号发布)

数字信号处理基础

模拟信号转化为数字信号(ADC)

现实生活中遇到的大多数信号都是连续信号,而计算机只能处理离散信号,因此需要通过采样量化转化为数字信号。

以正弦波为例, x ( t ) = s i n ( 2 π f 0 t ) x(t)=sin(2\pi f_0t) x(t)=sin(2πf0​t),其中 f 0 f_0 f0​是信号本身的频率,单位Hz。若我们对其每间隔 t s t_s ts​秒进行一次采样,并使用一定范围的离散数值表示采样值,则得到采样后信号 x ( n ) = s i n ( 2 π f 0 n t s ) x(n)=sin(2\pi f_0nt_s) x(n)=sin(2πf0​nts​), t s t_s ts​为采样周期, f s = 1 / t s f_s=1/t_s fs​=1/ts​采样频率, n = 0 , 1... n=0,1... n=0,1...为离散整数序列。

问题:如果给定一个正弦波采样后的序列,可以唯一恢复出一个连续的正弦波吗?

频率混叠

不同频率的正弦波,经采样后,完全有可能出现相同的离散信号,为什么?
x ( n ) = sin ⁡ ( 2 π f 0 n t s ) = sin ⁡ ( 2 π f 0 n t s + 2 π m ) = sin ⁡ ( 2 π ( f 0 + m n t s ) n t s ) \begin{aligned} & x(n)=\sin \left(2 \pi f_{0} n t_{s}\right) \\ =& \sin \left(2 \pi f_{0} n t_{s}+2 \pi m\right) \\ =& \sin \left(2 \pi\left(f_{0}+\frac{m}{n t_{s}}\right) n t_{s}\right) \end{aligned} ==​x(n)=sin(2πf0​nts​)sin(2πf0​nts​+2πm)sin(2π(f0​+nts​m​)nts​)​

如果 m = k n m=kn m=kn,k为整数(一般为常数),因为n为整数,m也是整数,若m=kn满足,则k必须为整数。替换以上公式为:
x ( n ) = sin ⁡ ( 2 π ( f 0 + k f s ) n t s ) \mathrm{x}(\mathrm{n})=\sin \left(2 \pi\left(\mathrm{f}_{0}+\mathrm{kf}_{\mathrm{s}}\right) \mathrm{nt}_{\mathrm{s}}\right) x(n)=sin(2π(f0​+kfs​)nts​)

从公式可以看出原始频率 f 0 f_0 f0​和 f 0 + k f s f_0+kf_s f0​+kfs​两个信号对应的离散信号是相同的。这种现象是频率混叠,也解释了上述的问题。如何避免频率混叠?

奈奎斯特采样定理

采样频率大于信号中最大频率的两倍, f s / 2 ≥ f m a x f_s / 2 \geq f_{max} fs​/2≥fmax​,即原始信号的一个周期内,至少要采样两个点,才能有效杜绝频率混叠问题。

问题:对一个采样率为16k的离散信号进行下采样,下采样到8k,为什么需要首先进行低通滤波?

根据奈奎斯特定律,采样率为16k的离散信号中可能存在频率不超过8k的信号,下采样到8k,音频中只允许存在最大频率不超过4kHz的信号,所以需要首先进行低通滤波,过滤掉超过4kHz的信号。

离散傅里叶变换

DFT将时域信号变换到频域,分析信号中频率成分,时域离散且周期的吸纳后可以进行DFT,非周期离散信号需要进行周期延拓。

DFT定义:给定一个长度为N的时域离散信号x(n),对应的离散频域序列X(m)为: X ( m ) = ∑ n = 0 N − 1 x ( n ) e − j 2 π n m / N , m = 0 , 1 , 2 , … N − 1 \mathrm{X}(\mathrm{m})=\sum_{\mathrm{n}=0}^{\mathrm{N}-1} \mathrm{x}(\mathrm{n}) \mathrm{e}^{-\mathrm{j} 2 \pi \mathrm{nm} / \mathrm{N}}, \quad \mathrm{m}=0,1,2, \ldots N-1 X(m)=∑n=0N−1​x(n)e−j2πnm/N,m=0,1,2,…N−1。其中, m = 0 , 1 , 2... N − 1 m=0,1,2...N-1 m=0,1,2...N−1为频率索引,X(m)为DFT的第m个输出。

根据欧拉公式,DFT的公式还可以为:
X ( m ) = ∑ n = 0 N − 1 x ( n ) [ cos ⁡ ( 2 π n m N ) − j sin ⁡ ( 2 π n m N ) ] \mathrm{X}(\mathrm{m})=\sum_{\mathrm{n}=0}^{\mathrm{N}-1} \mathrm{x}(\mathrm{n})\left[\cos \left(\frac{2 \pi \mathrm{nm}}{\mathrm{N}}\right)-\mathrm{j} \sin \left(\frac{2 \pi \mathrm{nm}}{\mathrm{N}}\right)\right] X(m)=n=0∑N−1​x(n)[cos(N2πnm​)−jsin(N2πnm​)]
DFT本质上是一个线性变换: X ⃗ = F x ⃗ \vec{X}=\boldsymbol{F} \vec{x} X =Fx
[ X ( 0 ) X ( 1 ) X ( 2 ) ⋮ X ( N − 1 ) ] = [ 1 1 ⋯ 1 1 e − j 2 π / N ⋯ e − j 2 π ( N − 1 ) / N 1 e − j 2 π ⋅ 2 / N ⋯ e − j 2 π ⋅ 2 ( N − 1 ) / N ⋮ ⋮ ⋮ ⋮ 1 e − j 2 π ⋅ ( N − 1 ) / N ⋯ e − j 2 π ⋅ ( N − 1 ) ( N − 1 ) / N ] [ x ( 0 ) x ( 1 ) x ( 2 ) ⋮ x ( N − 1 ) ] \left[\begin{array}{c} X(0) \\ X(1) \\ X(2) \\ \vdots \\ X(N-1) \end{array}\right]=\left[\begin{array}{cccc} 1 & 1 & \cdots & 1 \\ 1 & e^{-j 2 \pi / N} & \cdots & e^{-j 2 \pi(N-1) / N} \\ 1 & e^{-j 2 \pi \cdot 2 / N} & \cdots & e^{-j 2 \pi \cdot 2(N-1) / N} \\ \vdots & \vdots & \vdots & \vdots \\ 1 & e^{-j 2 \pi \cdot(N-1) / N} & \cdots & e^{-j 2 \pi \cdot(N-1)(N-1) / N} \end{array}\right]\left[\begin{array}{c} x(0) \\ x(1) \\ x(2) \\ \vdots \\ x(N-1) \end{array}\right] ⎣⎢⎢⎢⎢⎢⎡​X(0)X(1)X(2)⋮X(N−1)​⎦⎥⎥⎥⎥⎥⎤​=⎣⎢⎢⎢⎢⎢⎡​111⋮1​1e−j2π/Ne−j2π⋅2/N⋮e−j2π⋅(N−1)/N​⋯⋯⋯⋮⋯​1e−j2π(N−1)/Ne−j2π⋅2(N−1)/N⋮e−j2π⋅(N−1)(N−1)/N​⎦⎥⎥⎥⎥⎥⎤​⎣⎢⎢⎢⎢⎢⎡​x(0)x(1)x(2)⋮x(N−1)​⎦⎥⎥⎥⎥⎥⎤​

DFT性质:

因为 e − j 2 π n = cos ⁡ ( 2 π n ) − j sin ⁡ ( 2 π n ) = 1 \mathrm{e}^{-\mathrm{j} 2 \pi \mathrm{n}}=\cos (2 \pi \mathrm{n})-\mathrm{j} \sin (2 \pi \mathrm{n})=1 e−j2πn=cos(2πn)−jsin(2πn)=1
故X ( N − m ) = ∑ n = 0 N − 1 x ( n ) e j 2 π n m / N = X ∗ (   m ) (\mathrm{N}-\mathrm{m})=\sum_{\mathrm{n}=0}^{\mathrm{N}-1} \mathrm{x}(\mathrm{n}) \mathrm{e}^{\mathrm{j} 2 \pi \mathrm{nm} / \mathrm{N}}=\mathrm{X}^{*}(\mathrm{~m}) (N−m)=∑n=0N−1​x(n)ej2πnm/N=X∗( m)

这个性质很重要,DFT之后的离散频率序列的幅度具有对称性,因此在进行N点DFT之后,只需要保留前N/2+1个点。语音信号特征提取时,一般使用512点DFT,由于对称性,我们只需保留前257个有效点。

频率分辨率: f s / N f_s / N fs​/N,表示最小的频率间隔。当N越大时,频率分辨率越高,在频域上,第m个点表示的分析频率为: f analysis  ( m ) = m N f s \mathrm{f}_{\text {analysis }}(\mathrm{m})=\frac{\mathrm{m}}{\mathrm{N}} \mathrm{f}_{\mathrm{s}} fanalysis ​(m)=Nm​fs​。从这个角度,我们可以理解为X(m)的幅值体现了原信号中频率成分为 m N f s \frac{\mathrm{m}}{\mathrm{N}} \mathrm{f}_{\mathrm{s}} Nm​fs​的信号强度。

为了提高DFT频率轴的分辨率,而不影响原始信号的频率成分。我们可以将时域长度为N的信号补0,增加信号的长度,从而提高频率轴的分辨率。如,在语音特征提取阶段,对于16k采样率的信号,一帧语音信号长度为400个采样点,为了进行512的FFT,通常将400个点补0,得到512个采样点,最后只需要前257个点。

快速傅里叶变换,基本思想是把原始信号的N点序列,以此分解成一系列的短序列。充分利用DFT计算式中指数因子具有的对称性和周期性,进而求出这些短序列相应的DFT并进行适当组合,达到删除重复计算,减少乘法运算和简化结构的目的。

Fbank和MFCC特征提取

提取流程:

在这里插入图片描述

Fbank和MFCC特征目前仍是主要使用的特征,虽然有些工作尝试在语音识别任务上对波形建模,但是效果并没有超过基于频域的特征。

step1:预加重

预加重滤波器是一个一阶高通滤波器,给定时域输入信号 x [ n ] x[n] x[n],预加重之后的信号为: y [ n ] = x [ n ] − α x [ n − 1 ] y[n]=x[n]-\alpha x[n-1] y[n]=x[n]−αx[n−1],其中 0.9 ≤ α ≤ 1.0 0.9\leq \alpha \leq 1.0 0.9≤α≤1.0。

通俗解释:如果信号x是低频信号(变化缓慢),那么 x [ n ] x[n] x[n]和 x [ n − 1 ] x[n-1] x[n−1]的值应该很接近,当 α \alpha α接近1的时候, x [ n ] − α x [ n − 1 ] x[n]-\alpha x[n-1] x[n]−αx[n−1]接近0,此信号的幅度将大大抑制;如果信号x是高频信号(变化很快),那么 x [ n ] x[n] x[n]和 x [ n − 1 ] x[n-1] x[n−1]的值相差很大, x [ n ] − α x [ n − 1 ] x[n]-\alpha x[n-1] x[n]−αx[n−1]的值不会趋近0,此信号的幅度还能保持。

在这里插入图片描述

step2:加窗分帧

一般对于采样率为16kHz的信号,帧长、帧移一般为25ms、10ms。

分帧的过程,在时域上,即用一个窗函数和原始信号进行相乘, y [ n ] = w [ n ] x [ n ] y[n]=w[n]x[n] y[n]=w[n]x[n],常见的窗函数有矩形窗、汉明窗等。

问题:为什么不直接使用矩形窗?

加窗的过程实际上是在时域上将信号截断,窗函数与信号在时域相乘,就等于对应的频域表示进行卷积,矩形窗主瓣窄,但是旁瓣较大,将其与原始信号的频域进行卷积会导致频率泄露。

step3:DFT

将上一步分帧后的语音帧,由时域变换到频域,取DFT系数的模,得到谱特征。

过程:

step4:梅尔滤波器组和对数操作

f i l t e r b a n k m ( k ) = { k − f ( m − 1 ) f ( m ) − f ( m − 1 ) , f ( m − 1 ) ≤ k < f ( m ) f ( m + 1 ) − k f ( m + 1 ) − f ( m ) , f ( m ) < k ≤ f ( m + 1 ) filterbank _{m}(k)=\left\{\begin{array}{l} \frac{k-f(m-1)}{f(m)-f(m-1)}, f(m-1) \leq k<f(m) \\ \frac{f(m+1)-k}{f(m+1)-f(m)}, f(m)<k \leq f(m+1) \end{array}\right. filterbankm​(k)={f(m)−f(m−1)k−f(m−1)​,f(m−1)≤k<f(m)f(m+1)−f(m)f(m+1)−k​,f(m)<k≤f(m+1)​

梅尔滤波器组设计:

MFCC特征在Fbank特征的基础上继续进行IDFT变换等操作。

倒谱分析

频域信号可以分解为谱包络和谱细节的乘积,不同因素的谱包络和共振峰具有区分性。 X [ m ] = H [ m ] E [ m ] X[m]=H[m]E[m] X[m]=H[m]E[m]。

步骤:

取log有两个目的:1. 人耳对信号感知是近似对数的;2. 对数使特征对输入信号的扰动不敏感。

动态特征计算

Δ ( t ) = c ( t + 1 ) − c ( t − 1 ) 2 \Delta(\mathrm{t})=\frac{\mathrm{c}(\mathrm{t}+1)-\mathrm{c}(\mathrm{t}-1)}{2} Δ(t)=2c(t+1)−c(t−1)​

Δ Δ ( t ) = Δ ( t + 1 ) − Δ ( t − 1 ) 2 \Delta \Delta(\mathrm{t})=\frac{\Delta(\mathrm{t}+1)-\Delta(\mathrm{t}-1)}{2} ΔΔ(t)=2Δ(t+1)−Δ(t−1)​

总结

MFCC一般常用39维:

MFCC特征一般用于GMM训练,各维度之间相关性小,Fbank特征一般用于DNN训练,端到端语音识别系统中多数使用Fbank特征。

Fbank和MFCC样例代码

Fbank特征提取

  1. 确定滤波器组作用的最高频率以及最低频率

  2. 根据滤波器数量,确定每一个滤波器中心频率大的值

  3. 将滤波器组中心频率对应的梅尔刻度转化为赫兹刻度

    公式: mel ⁡ ( f ) = 2595 log ⁡ 10 ( 1 + f 700 ) \operatorname{mel}(f)=2595 \log _{10}\left(1+\frac{f}{700}\right) mel(f)=2595log10​(1+700f​) <-> f ( m e l ) = 700 ( 1 0 m e l 2595 − 1 ) f(m e l)=700\left(10^{\frac{m e l}{2595}}-1\right) f(mel)=700(102595mel​−1)

# step1: 计算梅尔刻度上的中心频率
low_mel_freq = 0
high_mel_freq = 2595 * np.log10(1 + fs / 2.0 / 700)
mel_points = np.linspace(low_mel_freq, high_mel_freq, num_filter + 2)
# step2:获得对应FFT单元的中心频率
freq_points = (700 * (np.power(10., (mel_points / 2595)) - 1))  # Hz刻度
  1. 将频率与DFT点数对应

  2. 初始化梅尔滤波器维一个Nxnum_filter的零系数矩阵

filter_edge = np.floor(freq_points * (fft_len + 1) / fs) # 对应到FFT的点数
feats=np.zeros((spectrum.shape[1], num_filter)) # 初始化
  1. 计算每一个梅尔滤波器的系数:

    • 计算每一个滤波器的起始、中心、截止频率

    • 计算每一个滤波器中每个频率点所对应的系数

      公式:

H i ( j ) = { f j − f ( i − 1 ) f ( i ) − f ( i − 1 ) , f ( i − 1 ) ≤ f j < f ( i ) f ( i + 1 ) − f j f ( i + 1 ) − f ( i ) , f ( i ) < f j ≤ f ( i + 1 ) H_{i}(j)=\left\{\begin{array}{l}\frac{f_{j}-f(i-1)}{f(i)-f(i-1)}, f(i-1) \leq f_{j}<f(i) \\ \frac{f(i+1)-f_{j}}{f(i+1)-f(i)}, f(i)<f_{j} \leq f(i+1)\end{array}\right. Hi​(j)={f(i)−f(i−1)fj​−f(i−1)​,f(i−1)≤fj​<f(i)f(i+1)−f(i)f(i+1)−fj​​,f(i)<fj​≤f(i+1)​

for m in range(1, 1 + num_filter):
    # 计算每一个滤波器的起始、中心、截止频率
   	f_left = int(filter_edge[m - 1])
   	f_center = int(filter_edge[m])
   	f_right = int(filter_edge[m + 1])
	# 计算每一个滤波器中每个频率点所对应的系数
  	for k in range(f_left, f_center):
     	feats[k, m - 1] = (k - f_left) / (f_center - f_left)
        
   	for k in range(f_center, f_right):
     	feats[k, m - 1] = (f_right - k) / (f_right - f_center)
  1. 计算得到Fbank特征:滤波器组的系数和频谱进行加权求和,并对结果取对数
feats = np.dot(spectrum, feats)
feats = np.where(feats == 0, np.finfo(float).eps, feats)
feats = 20 * np.log10(feats)

MFCC特征提取

对每帧Fbank求DCT变化得到MFCC:
m f c c [ k , n ] = ∑ i = 0 n u m − f i l t e r − 1 X [ k , i ] cos ⁡ ( π n ( 2 i − 1 ) 2 × n u m − f i l t e r ) m f c c[k, n]=\sum_{i=0}^{n u m_{-} f i l t e r-1} X[k, i] \cos \left(\frac{\pi n(2 i-1)}{2 \times n u m_{-} f i l t e r}\right) mfcc[k,n]=i=0∑num−​filter−1​X[k,i]cos(2×num−​filterπn(2i−1)​)
m f c c [ k , n ] m f c c[k, n] mfcc[k,n]: mfcc第k帧第n个值, X [ k , i ] X[k, i] X[k,i]: Fbank第k帧第i个值。

# from scipy.fftpack import dct
feats = dct(fbank, type=2, axis=1, norm='ortho')[:, 1:(num_mfcc + 1)]

标签:滤波器,信号,MFCC,--,DFT,频率,Fbank,pi,mathrm
来源: https://blog.csdn.net/weixin_39529413/article/details/117171122