【网络通信 -- 直播】音视频基础知识点总结
作者:互联网
【网络通信 -- 直播】音视频基础知识点总结
【0】音视频技术的基本知识点总结
【0.1】视频技术的概念
视频(Video)技术泛指将一系列静态影像以电信号的方式加以捕捉、记录、处理、储存、传送与重现的各种技术;
连续的图像变化每秒超过 24 帧(frame,fps)画面以上时,根据视觉暂留原理,人眼无法辨别单幅的静态画面,看上去是平滑连续的视觉效果,这样连续的画面即为视频;
视频技术最早伴随电视系统而产生,目前已经发展出各种不同的格式;同时,网络技术的发展也促使视频的记录片段以串流媒体的形式存在于因特网之上并可被电脑接收与播放;
视频与电影属于不同的技术,电影是利用照相术将动态的影像捕捉为一系列的静态照片;
常见的视频格式,avi,mov,mp4,wmv,flv,mkv ...
【0.1.1】帧与帧率
帧,视频的一个基本概念,表示一张画面,一个视频就是由许多帧组成的;
帧率,即单位时间内帧的数量,单位为 : 帧/秒 或 fps(frames per second),帧率越高则画面越顺滑过渡越自然;
帧率的典型值
- 24/25 fps : 1 秒 24/25 帧,一般的电影帧率;
- 30/60 fps : 1 秒 30/60 帧,游戏的帧率,30 帧可以接受,60 帧更加流畅逼真;
- 85 fps 以上人眼基本无法察觉,因此更高的帧率在视频里没有太大意义;
【0.1.2】色彩空间
RGB,通过 RGB 三种基础色,可以混合出所有的颜色;
YUV (又称为 YCbCr),一种亮度与色度分离的色彩格式;
- Y : 亮度,即灰度值,除了表示亮度信号外,还含有较多的绿色通道量;
- U : 蓝色通道与亮度的差值;
- V : 红色通道与亮度的差值;
YUV 的优势,人眼对亮度敏感,对色度不敏感,因此减少部分 UV 的数据量,人眼无法感知,从而可以通过压缩 UV 的分辨率, 在不影响观感的前提下,减小视频的体积;
RGB 和 YUV 的换算公式
Y = 0.299R + 0.587G + 0.114B
U = -0.147R - 0.289G + 0.436B
V = 0.615R - 0.515G - 0.100B
-------------------------------
R = Y + 1.14V
G = Y - 0.39U - 0.58V
B = Y + 2.03U
【0.2】音频技术的概念
音频数据的承载方式最常用的是脉冲编码调制,即 PCM;PCM 的采集步骤,模拟信号 -> 采样 -> 量化 -> 编码 -> 数字信号;
【0.2.1】采样率和采样位数
采样率,即采样的频率;采样率要大于原声波频率的 2 倍,人耳能听到的最高频率为 20kHz,因此为了满足人耳的听觉要求,采样率至少为 40kHz,通常为 44.1kHz,更高的通常为 48kHz;
注意 : 人耳听觉频率范围[20Hz, 20KHz];
采样位数,即振幅量化,波形振幅在模拟信号上也是连续的样本值,而在数字信号中,信号一般是不连续的,因此模拟信号量化以后,只能取一个近似的整数值,为了记录这些振幅值,采样器会采用一个固定的位数来记录这些振幅值,通常有 8 位、16 位、32 位;
注意 : 位数越多,记录的值越准确,还原度越高,但占用硬盘空间越大;
【0.2.2】音频编码
【0.2.3】声道数
声道数,指支持能不同发声(注意是不同声音)的音响的个数;单声道(1 个声道),双声道(2 个声道),立体声道(默认 2 个声道;4 声道);
【0.2.4】码率
码率,指一个数据流中每秒钟能通过的信息量,单位 bps(bit per second);码率 = 采样率 * 采样位数 * 声道数;
【0.2.5】音频格式
在计算机内播放或处理音频文件,要对声音文件进行数/模转换,该过程由采样和量化构成,人耳所能听到的声音 [ 20Hz,20KHz ],因此音频文件格式的最大带宽是 20KHZ,采样速率需要介于 40~50KHZ 之间,而且对每个样本需要更多的量化比特数;音频数字化的标准是每个样本 16 位 -96dB 的信噪比,采用线性脉冲编码调制 PCM,每一量化步长都具有相等的长度;
【0.3】多媒体技术的概念
【0.3.1】媒体的概念
媒体(Media),指信息的载体,其本质是信息传播的技术和手段;
媒体的类型和特点
- 第一类感觉媒体,感觉媒体是指直接作用于人的感觉器官、从而为人的感知系统所接受的信息形态或媒体形式;感觉媒体主要有文字、声音、图形、图像、动画、 视频等形态;
- 第二类表示媒体,感觉媒体在电子设备、计算机、网络等系统内部的存在形式,即编码形态的媒体;例如,计算机系统中的 ASCII 码、国家标准汉字字符集的区位码、字符的点阵码等等,以及音频、图像与视频编码;
- 第三类表现媒体,将编码形式的媒体显示成感觉媒体的设备或技术,表现媒体包括显示器、投影仪、打印机、绘图仪、有源或无源音箱等等;
- 第四类存储媒体,指用于存放表示媒体(即编码形态的媒体)的设备或技术,如内存、寄存器、磁盘、磁带、光盘、USB 盘等等;
- 第五类传输媒体,用于传送表示媒体的设备或技术,如双绞线、电缆、光纤等,甚至包括用于直接传播声音的空气、传播无线电信号的电磁波;
【0.3.2】多媒体与多媒体技术
多媒体,指能够同时处理两种以上感觉媒体的计算机系统,其目标是为用户提供更丰富的应用体验;
多媒体技术(又称计算机多媒体技术),指通过计算机对文字、数据、图形、图像、动画、声音等多种媒体信息进行综合处理和管理,使用户可以通过多种感官与计算机进行实时信息交互的技术;
真正的多媒体技术所涉及的对象是计算机技术的产物,而其他的单纯事物,如电影、电视、音响等,均不属于多媒体技术的范畴;多媒体技术中的媒体主要是指利用电脑把文字、图形、影象、动画、声音及视频等媒体信息都数位化,并将其整合在一定的交互式界面上,使电脑具有交互展示不同媒体形态的能力,它极大的改变了人们获取信息的传统方法,符合人们在信息时代的阅读方式;
多媒体技术的特点
- 多媒体技术的第一个特征,媒体类型或媒体技术的多样性;一个可以被称为多媒体的应用系统,必须至少集成了两种不同类型的媒体及其相关技术;
- 多媒体技术的第二个特征,媒体内容的同步性(synchronization);在多媒体应用系统中,多种媒体是融合在一起的,以一种协同的方式工作的;
- 多媒体技术的第三个特征,交互性( Interactive );与交互性密切相关的另外两个概念是人机交互(Human-Computer Interaction,HCI)和人机界面(Human-Computer Interface,HCI);
【0.4】数字电视基本概念
数字电视,即将传统的模拟电视信号经过抽样、量化和编码转换成用二进制数代表的数字式信号,然后进行各种功能的处理、传输、存储和记录,也可以用电子计算机进行处理、监测和控制;采用数字技术不仅使各种电视设备获得比原有模拟式设备更高的技术性能,而且还具有模拟技术不能达到的新功能,使电视技术进入崭新时代;
【0.4.1】数字电视的数据压缩技术
- 一是在信源编码过程中进行压缩,利用人类听觉视觉效应去除信号中的多余成分,在不影响收听收看效果的前提下尽量压缩数据率;
- 二是改进信道编码,发展新的数字调制技术,提高单位频宽数据传送速率;
在信源编码方面,IEEE 的 MPEG 专家组已发展制订了 ISO/IEC11172(MPEG-1) 和 ISO/IEC13818(MPEG-2)两项国际标准;MPEG-1 的输入视频格式为 CIF352×288,主要用于 CD-ROM、VCD 或 T1(E1) 线路传输,码率为固定的 1.5Mbps;MPEG-2 供数字电视使用,它支持标准分辨率的 16∶9 宽屏及高清晰度电视等多种格式,其码率可变为 3~40Mbps;
【0.4.2】数字电视的分类
- 按信号传输方式分类,可以分为地面无线传输(地面数字电视)、卫星传输(卫星数字电视)、有线传输(有线数字电视)三类;
- 按产品类型分类,可以分为数字电视显示器、数字电视机顶盒、一体化数字电视接收机;
- 按清晰度分类,可以分为低清晰度数字电视(图像水平清晰度大于 250 线,即 LDTV)、标准清晰度数字电视(图像水平清晰度大于 500 线,即 SDTV)、高清晰度数字电视(图像水平清晰度大于 800 线,即 HDTV);VCD 的图像格式属于低清晰度数字电视(LDTV)水平,DVD 的图像格式属于标准清晰度数字电视(SDTV)水平;
- 按显示屏幕幅型分类,可以分为 4 : 3 幅型比和 16 : 9 幅型比两种类型;
- 按扫描线数(显示格式)分类,可以分为 HDTV 扫描线数(大于 1000 线)和 SDTV 扫描线数(600~800 线)等;
【0.4.3】数字电视的优点
- 1. 信号杂波比和连续处理的次数无关;
- 2. 可避免系统的非线性失真的影响;
- 3. 数字设备输出信号稳定可靠;
- 4. 易于实现信号的存储, 而且存储时间与信号的特性无关;
- 5. 由于采用数字技术, 与计算机配合可以实现设备的自动控制和调整;
- 6. 数字技术可实现时分多路,充分利用信道容量,利用数字电视信号中行、场消隐时间,可实现文字多工广播(Teletext);
- 7. 压缩后的数字电视信号经数字调制后,可进行开路广播
- 8. 可以合理地利用各种类型的频谱资源
- 9. 在同步转移模式(STM)的通信网络中,可实现多种业务的"动态组合"(dynamic combination)
- 10. 很容易实现加密/解密和加扰/解扰技术
- 11. 具有可扩展性、可分级性和互操作性
- 12. 可以与计算机"融合"而构成一类多媒体计算机系统
【0.5】短视频基本概念
短视频,指在各种新媒体平台上播放的、适合在移动状态和短时休闲状态下观看的、高频推送的视频内容,几秒到几分钟不等;
短视频特点,生产流程简单、制作门槛低、参与性强等特点,比直播更具有传播价值,制作周期短和内容趣味化;
【1】视频文件播放流程示意图
【2】视频封装格式
封装格式(容器)就是将已经编码压缩完毕的视频轨和音频轨按照一定的格式存放到一个文件中,即仅仅是一个外壳,或者可理解为存放视频轨和音频轨的文件夹;
视频文件格式 | 视频封装格式 |
.avi | AVI(Audio Video Interleaved) |
.wmv、.asf | WMV(Windows Media Video) |
.mpg、.mpeg、.vob、.dat、.3gp、.mp4 | MPEG(Moving Picture Experts Group) |
.mkv | Matroska |
.rm、.rmvb | Real Video |
.mov | QuickTime File Format |
.flv | Flash Video |
【3】视频编码方式
视频编码的作用,将视频像素数据(RGB,YUV 等)压缩成视频码流,从而降低视频的数据量;
名称 | 推出机构 | 推出时间 | 目前使用领域 |
H.264 | MPEG/ITU-T | 2003 | 各个领域 |
MPEG4 | MPEG | 2001 | 不温不火 |
MPEG2 | MPEG | 1994 | 数字电视 |
VP9 | 2013 | 研发中 | |
VP8 | 2008 | 不普及 | |
VC-1 | Microsoft Inc. | 2006 | 微软平台 |
HEVC(H.265) | MPEG/ITU-T | 2013 |
【4】音频编码方式
音频编码的作用,将音频采样数据(PCM 等)压缩成音频码流,从而降低音频的数据量;
名称 | 推出机构 | 推出时间 | 目前使用领域 |
AAC | MPEG | 1997 | 各个领域(新) |
MP3 | MPEG | 1993 | 各个领域(旧) |
WMV | Microsoft Inc. | 1999 | 微软平台 |
AC-3 | Dolby Inc. | 1992 | 电影 |
【5】压缩编码的基本概念
【5.1】硬解码和软解码
软解码,指利用 CPU 的计算能力来解码,通常若 CPU 的能力不是很强的时候,一则解码速度会比较慢,二则手机可能出现发热现象;但是, 由于使用统一的算法,兼容性会很好;
硬解码,指的是利用专门的解码芯片来加速解码,通常硬解码的解码速度会快很多,但是由于硬解码由各个厂家实现,质量参差不齐,非常容易出现兼容性问题;
参考致谢
本博客为博主的学习实践总结,并参考了众多博主的博文,在此表示感谢,博主若有不足之处,请批评指正。
标签:知识点,数字电视,媒体,--,音频,音视频,编码,视频,多媒体技术 来源: https://blog.csdn.net/qq_27788177/article/details/111245100