压缩算法
作者:互联网
认识压缩算法
我们想必都有过压缩和解压缩文件的经历,当文件太大时,我们会使用文件压缩来降低文件的占用空间。比如微信上传文件的限制是100 MB,我这里有个文件夹无法上传,但是我解压完成后的文件定会小于100 MB,那么我的文件就可以上传了。
此外,我们把相机拍完的照片保存到计算机上的时候,也会使用压缩算法进行文件压缩,文件压缩的格式一般是JPEG。
文件存储
文件是将数据存储在磁盘等存储媒介的一种形式。程序文件中最基本的存储数据单位是字节。文件的大小不管是xxxKB. xxMB等来表示,就是因为文件是以字节B= Byte为单位来存储的.
文件就是字节数据的集合。用1字节(8位)表示的字节数据有256种,用二进制表示的话就是0000 0000 - 1111 1111。如果文件中存储的数据是文字,那么该文件就是文本文件。如果是图形,那么该文件就是图像文件。在任何情况下,文件中的字节数都是连续存储的。
压缩算法的定义
无损压缩:
能够无失真地从压缩后的数据重构,准确地还原原始数据。可用于对数据的准确性要求严格的场合,如可执行文件和普通文件的压缩、磁盘的压缩,也可用于多媒体数据的压缩。该方法的压缩比较小。如差分编码、RLE, Hufftman编码、LZW编码、算术编码
有损压缩:有失真,不能完全准确地恢复原始数据,重构的数据只是原始数据的一个近似。可用于对数据的准确性要求不高的场合,如多媒体数据的压缩。该方法的压缩比较大。例如预测编码、音感编码分形压缩、小波压缩、JPEG/MPEG
对称性
如果编解码算法的复杂性和所需时间差不多,则为对称的编码方法,多数压缩算法都是对称的。但也有不对称的,一般是编码难而解码容易,如Huffman编码和分形编码。但用于密码学的编码方法则相反,是编码容易,而解码则非常难
帧间与帧内
在视频编码中会同时用到帧内与帧间的编码方法,帧内编码是指在一帧图像内独立完成的编码方法,同静态图像的编码,如JPEG;而帧间编码则需要参照前后帧才能进行编解码,并在编码过程中考虑对畅之间的时间冗余的压缩,如MPEG
几种压缩算法
RLE算法的机制
接下来就让我们正式看一下文件的压缩机制。首先让我们来尝试对 AAAABBCDEEEEF这17个半角字符的文件(文本文件)进行压缩。虽然这些文字没有什么实际意义,但是很适合用来描述RLE的压缩机制。
由于半角字符(其实就是英文字符)是作为1个字节保存在文件中的,所以上述的文件的大小就是17字节。
那么,如何才能压缩该文件呢?大家不妨也考虑一下,只要是能够使文件小于17字节,我们可以使用任何压缩算法。
最显而易见的一种压缩方式我觉得你已经想到了,就是把相同的字符去重化,也就是字符*重复次数的方式进行压缩。所以上面文件压缩后就会变成下面这样
从图中我可以看出, AAAAAABBCDDEEEEEF17个字符成功被压成了A6B2C1D2E5F1的12个字符,也就是12/ 17=70%;压缩比为70%,压缩成功了
像这样,把文件内容用数据*重复次数的形式来表示的压缩方法成为RLE(Run LengthEncoding,行程长度编码)算法。RLE算法是一种很好的压缩方法,经常用于压缩传真的图像等。因为图像文件的本质也是字节数据的集合体,所以可以用RLE算法进行压缩
RLE算法的缺点
RLE的压缩机制比较简单,所以RLE算法的程序也比较容易编写,所以使用RLE的这种方式更能让你体会到压缩思想,但是RLE只针对特定序列的数据管用,下面是RLE算法压缩汇总
哈夫曼算法和莫尔斯编码
下面我们来介绍另外一种压缩算法,即哈夫曼算法。在了解哈夫曼算法之前,你必须舍弃半角英文数字的1个字符是1个字节(8位)的数据。下面我们就来认识一下哈夫曼算法的基本思想。
文本文件是由不同类型的字符组合而成的,而且不同字符出现的次数也是不一样的。例如,在某个文本文件中, A出现了100次左右, Q仅仅用到了3次,类似这样的情况很常见。哈夫曼算法的关键就在于多次出现的数据用小于8位的字节数表示,不常用的数据则可以使用超过8位的字节数表示。A和Q都用8位来表示时,原文件的大小就是100次*8位+3次*8位= 824位,假设A用2位, Q用10位来表示就是2*100 +3* 10=230位。
不过要注意一点,最终磁盘的存储都是以8位为一个字节来保存文件的。
哈夫曼算法比较复杂,在深入了解之前我们先吃点甜品,了解一下莫尔斯编码,你一定看过美剧或者战争片的电影,在战争中的通信经常采用莫尔斯编码来传递信息,例如下面
接下来我们来讲解一下莫尔斯编码,下面是莫尔斯编码的示例,大家把1看作是短点(滴),把11看作是长点(哒)可。
莫尔斯编码一般把文本中出现最高频率的字符用短编码来表示。如表所示,假如表示短点的位是1,表示长点的位是11的话,那么E (嘀)这一数据的字符就可以用1来表示, c (滴答滴答)就可以用9位的110101101来表示。在实际的莫尔斯编码中,如果短点的长度是1,长点的长度就是3,短点和长点的间隔就是1。这里的长度指的就是声音的长度。比想上面的AAAAAABBCDDEEEEEF例子来用莫尔斯编码重写,在莫尔斯曼编码中,各个字符之间需要加入表示时间间隔的符号。这里我们用00加以区分
所以, AAAAAABBCDDEEEEEF这个文本就变为了A"6次+B"2次+C*1次+D2次+E"5次+F*1次+字符间隔"16=4位"6次+8位*2次+9位*1次+6位 2次+1位"5次+8位"1次+21* 16次=106位=14字节。
所以使用莫尔斯电码的压缩比为14 / 17=82%。效率并不太突出。
用二叉树实现哈夫曼算法
刚才已经提到,莫尔斯编码是根据日常文本中各字符的出现频率来决定表示各字符的编码数据长度的。不过,在该编码体系中,对AAAAAABBCDDEEEEEF这种文本来说并不是效率最高的。
下面我们来看一下哈夫曼算法。哈夫曼算法是指,为各压缩对象文件分别构造最佳的编码体系,并以该编码体系为基础来进行压缩。因此,用什么样的编码(哈夫曼编码)对数据进行分割,就要由各个文件而定。用哈夫曼算法压缩过的文件中,存储着哈夫曼编码信息和压缩过的数据。
接下来,我们在对AAABBCDDEEEEEF中的A-F这些字符,按照出现频率高的字符用尽量少的位数编码来表示这一原则进行整理。按照出现频率从高到低的顺序整理后,结果如下,同时也列出了编码方案。
在上表的编码方案中,随着出现频率的降低,字符编码信息的数据位数也在逐渐增加,从最开始的1位、2位依次增加到3位。不1、0、0这三个编码来表示E、A、A呢?还是用10、0来表示B、A呢?还是用100来表示C呢。而在哈夫曼算法中,通过借助哈夫曼树的构造编码体系,即使在不使用字符区分符号的情况下,也可以构建能够明确进行区分的编码体系。不过哈夫曼树的算法要比较复杂,下面是一个哈夫曼树的构造过程。
标签:编码,哈夫曼,文件,压缩,算法,字符,压缩算法 来源: https://www.cnblogs.com/a-runner/p/15056873.html