音视频学习-音频相关知识
作者:互联网
一.声音的本质:声音是由物体的振动产生的,这种振动引起了周围空气压强的振荡,我们称这种振荡的函数表现形式为波形.
声音有振幅,振幅的主观感觉是声音的大小。声音的振幅大小取决于空气压力波距平均值(也称平衡态)的最大偏移量。【这些物理知识,大家了解一下就行了】
二.声音的物理性质:声音的频率是周期的倒数,它表示的是声音在1秒钟内的周期数,单位是赫兹(Hz)。千赫(kHz),即1000Hz,表示每秒振动1000次。声音按频率可作如下划分:
1. 次声 0~20Hz
2. 人耳能听见的声音 20Hz~20KHz
3. 超声 20KHz~1GHz
4. 特超声 1GHz~10THz
三.数字音频:计算机不直接使用圆滑的波形来表示声音,它是在每隔固定时间对波形相应的值进行采样【采样是在离散的时间上进行的,而采样值本身在计算机中也有离散的】,如图。
根据Nyguist采样定律,要从采样中完全恢复原始信号波形,采样频率【每秒钟采样个数】必须至少是信号中最高频率的两倍。前面提到人耳能听到的频率范围是[20H~20kHz],所以采样频率一般为44.1Khz,这样就能保证声音到达20Khz也能被数字化,从而使得经过数字化处理之后,人耳听到的声音质量不会被降低。一般的采样频率有如下几种:
1) 22000(22kHz): 无线广播。
2)44100(44.1kHz): CD音质。
3)48000(48kHz): 数字电视,DVD。
4)96000(96kHz): 蓝光,高清DVD。
5)192000(192kHz): 蓝光,高清DVD。
然后第二步:把采样的数据进行量化,采样值的精度取决于它用多少位来表示,这就是量化。例如8位可以量化256个不同的值,而CD质量的16位量化可以表示65 536个值,范围为[-32768, 32767]
下图是一个3位量化的示意图,下图是一个3位量化的示意图,可以看出3位量化只能表示8个值:0.75,0.5,0.25,0,─0.25,─0.5,─0.75和 ─1,因而量化位数越少,波形就越难辨认,还原后的声音质量也就越差(可能除了一片嗡嗡声之外什么都没有)
第三部编码【后续细讲】:PCM脉冲编码调制,人耳听到的是模拟信号, PCM是把声音从模拟信号转化为数字信号的技术。
四.音频常见名词:
1)采样频率:每秒钟采样点的个数。
2) 采样精度:每个 "样本点" 的大小,常用的大小为8bit, 16bit, 24bit.
3)通道:单声道,双声道,四声道,5.1声道。
4)比特率:每秒传输的bit数,单位为bps(Bit Per Second), 间接衡量音质的一个标准。
没有压缩的音频数据的比特率 = 采样频率 * 采样精度 * 通道数。
5)码率:压缩后音频数据的比特率【码率越大,压缩效率越低,音质越好,压缩后数据越大 ,码率 = 音频文件大小 / 时长】,常见的码率:
96kbps --- FM质量
128-160kbps --- 音频质量音频
192kbps --- CD质量
256-320kbps ---- 高质量音频
6)帧【注意这里是音频的帧】:每次编码的采样单元数,比如MP3通常是1152个采样点作为一个编码单元,AAC通常是1024个采样点作为一个编码单元。
7)帧长:可以指每帧持续播放的时间:每帧持续时间(秒) = 每帧采样点数 / 采样频率(HZ)比如:mp3 48k, 1152个采样点,每帧则是1152/4800=24毫秒,也可以指压缩后每帧的数据长度,所以讲到帧的时候要注意它适用的场景。
8)交错模式:数据音频信号存储的方式,数据已连续帧的方式存放,即帧1的左声道样本和右声道样本,然后在存储帧2的。这里1024个L和1024个R交错如图:
9)非交错模式:首先记录的是一个周期内所有帧的左声道样本,再记录所有右声道样本。
标签:采样,声音,码率,音频,知识,音视频,频率,量化 来源: https://blog.csdn.net/qq_44065088/article/details/120833595