其他分享
首页 > 其他分享> > 音频基本知识

音频基本知识

作者:互联网

以下是我列举的音频的基本知识要点:

音频信号:

音频信号(audio signals)是表示机械波的信号,是机械波的波长、强度变化的信息载体。根据机械波的特征,可分为规则信号和不规则信号。其中规则信号又可以分为音乐等。规则信号是一种连续变化的模拟信号,可用一条连续的曲线来表示。

 

音频信号常见的分为:

音频信号的模数转换

模数转换是指:现实中声音的模拟信号转换为数字信号的过程。

模数转换过程会经过一系列的信号处理过程:模拟信号-->采样->量化->编码->数字信号。

音频模拟信号-->数字信号转换

 

下面以麦克风的声音采集举例:

 

声音的三要素:

声音的三要素分别是音调、音量、音色,具体如下:

采样率:

定义:英文sample rate,采样率就是 1 秒内采集到的采样点的个数,一般用赫兹 Hz 来表示。采样率是指将模拟信号转换成数字信号时的采样频率,人耳能听到的声音一般在 20Hz~20KHz 之间,根据采样定理,采样频率大于信号中最高频率的 2 倍时,采样之后的数字信号便能完整的反应真实信号,也就是说采样率和保留的声音频率基本上是 2 倍的关系

         (图 不同采样率( 48kHz(上)和16kHz(下) )的频谱能量分布)

由上图我们可以看到,16kHz 采样率的音频在 8kHz 以上的频谱基本是没有能量的(黑色),也就是说这部分高频的信息由于采样率不够已经丢失了。从听感上来说人耳可以听到的频率范围大概是 50~20kHz 之间。如果采样率不够,那么和实际听感比起来声音就会显得“低沉”或者说“闷”。

用多大的采样率取决于业务场景,下面列举了常见业务场景的采样率:

采样越高,声音的还原就越真实越自然,人对频率的识别范围是 20HZ - 20000HZ, 如果每秒钟能对声音做 20000 个采样, 回放时就足可以满足人耳的需求. 所以 22050 的采样频率是常用的, 44100已是CD音质, 超过48000的采样对人耳已经没有意义。这和电影的每秒 24 帧图片的道理差不多。

2)采样位深:

也叫采样位宽,采样深度,量化精度,采样后需要量化,每个采样点会有对应量化的数值,采样位深也就是每个采样点用多少 bit 来表示。从物理意义上来说,位深代表的是振动幅度的表达精确程度或者说粒度

音频量化的量化位数常用的有:

常用场景:

3)声道

也叫通道,声道(Sound Channel) 是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。

声道的基本分类:

4)码率

码率指的是比特率:声音中的比特率是指将模拟声音信号转换成数字声音信号后,单位时间内的二进制数据量,是间接衡量音频质量的一个指标。 

单位为 bps(Bit Per Second),比特率越高,每秒传送数据就越多,画质就越清晰

码率 = 采样频率 * 量化位数 * 声道个数

不同码率的音频质量:

5)音频存储:

音频存储也就是把量化所得的结果,即单个声道的样本,以二进制的码字进行存放。其中有两种存放方式:

大多数格式的PCM样本数据使用整形来存放,而在对一些对精度要求高的应用方面,则使用浮点型来表示PCM 样本数据。

 

存储计算方式:

[时长]s * [采样率]Hz * [采样位数]bit * [声道数] / 8 = [文件大小]byte

某音频信号是采样率为8kHz、立体声道、位宽为16bit,时长为1s,则音频数据的大小为:

1 * 8000 * 16 *2 = 256000 bit / 8 = 32000 byte / 1024 = 31.25 KB

6)音频格式的封装:

音频的封装格式分有损和无损封装格式:

下面列举了常见的wav格式进行了一个梳理分析:

 

 

标签:采样,Hz,采样率,声音,音频,基本知识,信号
来源: https://blog.csdn.net/wu5215080/article/details/122774444