其他分享
首页 > 其他分享> > 语谱图 基频 共振峰

语谱图 基频 共振峰

作者:互联网

语谱图

转载自语谱图 基频 共振峰_lzrtutu的博客-CSDN博客_共振峰语谱图、基频、共振峰https://blog.csdn.net/lzrtutu/article/details/78882715

        通常指的是,短时傅里叶变换之后的幅度画出的二维图像,也可以不是傅里叶变换。

窄带语谱图和宽带语谱图

        窄带,带宽小,时宽大,也就是短时窗长。那么对应的窄带语谱图就是指的在长窗条件下画出的语谱图,宽带和其相反。

        至于“横竖条纹”,窄带语谱图的带宽窄,那么在频率上就“分得开”,即能将语音各次谐波“看得很清楚”,即表现为“横线”。“横”就体现出了频率分辨率高。分辨率可以直观的看做“分开能力”。“频率分辨率”高就是在频率上将各次谐波分开的能力高,表现为能分辨出各次谐波的能力高,频率分辨率越高,越容易分辨各次谐波。

        宽带语谱图的时宽窄,那么在时间上就“分得开”,即能将语音在时间上重复的部分“看得很清楚”,即表现为“竖线”。“竖”就体现出了时间分辨率高。时间分辨率越高,谱图上的竖线看得越清楚

从语谱图看基音频率和共振峰

        基音周期表示声带的震动周期,每隔这么长时间(震动周期),有一个气流通过,“每隔”就体现了周期性,这就是基音周期,那么谱图上就应该有这个频率的信号分量,而且这个频率的幅度(能量)不应该很小,因为每隔一段时间“就有”一团能量通过声带,所以基音频率所在的成分在窄带语谱图上应该是所有横条纹中频率范围最低的那条。条纹对应的纵轴刻度值就表示基音频率。

图1

图1,语音及其窄带语谱图,分别是波形图和窄带语谱图 

图2

图2, 同一条语音及其宽带语谱图。上图是语音时间波形,下图是上图的宽带语谱图

        从图1小图可估计基音频率大约在250Hz左右,基音频率略有波动,0.5s处大约是240Hz。其他横条纹就是各次谐波,这些谐波中有些地方颜色比同时刻其附近其他横条纹颜色要深,这些颜色深的条纹表示共振峰。有些时刻,颜色较局部附近深的条纹不止一条,这些深色条纹组成了各次共振峰,如第一、第二、第三共振峰。图2,宽带语谱图的基音频率和共振峰就不清晰了。但是其仍可以看出基音周期

        图2小图具有明显的竖线,两条竖线之间的时间就表示基音周期。在0.44s到0.54s时间段内大约有25条竖线,即24个间隔,则基音周期可估计为(0.54-0.44)/24=4.17ms,则基音频率估计为240Hz。(互为倒数关系)

时域波形上估计基音周期、频谱曲线上估计基音频率

        选取0.5s处的一段语音片段,长度为20ms。其时域波形和频谱如图3。
        图3

图3,在0.5s处语音时域波形和频谱

        图3左, 用红圈圈示的尖峰用于估计基音周期,双向箭头表示时间范围内5个圈共4个相似的波段,这4段就表示4个基音周期,则可估计基音周期约为4.25ms,则基音频率约为235.2941Hz。

        图3右图,频谱具有明显小尖峰,这些尖峰在低频部分(可认为语音频率3400Hz内)比较有规律且平滑,高频出现小幅度的“杂乱”,这些“杂乱”表示噪声,来源有录音设备及量化噪声等(虽然幅度很小,甚至根本就“听”不出来,但存在是事实)。

        这些尖峰就是各次谐波,从左往右一次是1次、2次、3次……谐波

        最左边的尖峰对应基音频率,其横坐标对应的值表示基音频率,从小图可看到大约为234.83Hz。利用各次谐波可以得到更精确的估计,图中用红圈表示用于估计基频的谐波,共选取了15个,估计出基频为234.8337Hz。

频谱曲线看共振峰

        共振峰体现的是声道的信息。为便于比较和观察,将图3这个语音片段的源和系统分离,分别展示源的频谱和声道的频谱。下面两个图显示的是源的频谱、声道频谱和语音频谱以及共振峰的位置信息。图5是在4的基础上去除了小图。

        粉红——源信息频谱;红线是语音频谱;黑色虚线——语音频谱包络;蓝线——声道频谱,蓝圈——声道频谱之的峰点;分红虚线——蓝线峰值点的位置

        根据语音产生的源-滤波器模型及源、系统的卷积解释,语音频谱的包络显示的是声道的信息。小尖峰——源的信息,比如谐波等。

tu4

图4,语音片段时域波形和源、声道以及语音频谱

 图5

图5,在图4基础上去掉了小图 

        粉红、红线两者峰值位置相对应,体现了源的信息。粉红色 也没有明显的包络峰值,可以说明升到的信息被滤除。蓝线没有了小尖峰,即滤掉了源的信息。并且声道的峰值点位置与语音频谱包络的峰值位置也正好一一对应。。蓝圈圈的个数表示共振峰的个数,共有4个,从左至右分别称为F1、F2、F3、F4,(F0是基音频率)。它们横轴值表示共振峰频率值,某共振峰带宽就表示该共振峰所占频带宽度。同时,,源所占的频率范围和声道所占的频率范围是一样的,在频域利用高通或低通或带通的方法分离源和系统是行不通的。

        

        

标签:频谱,语音,语谱,频率,基频,共振,基音
来源: https://blog.csdn.net/BEIERMODE666/article/details/121640622