為什麼數字影象可以被壓縮？

來源：酷知科普網 1.28W

圖片是由畫素塊組成的，畫素經實際測量後，把真實值與預測值的差值求出來，並利用這個差值來表示第二個格子的色彩，後面的色彩值就可以滾雪球似的一個個求出來，被稱為無失真壓縮。如果把很少的差值徹底丟棄，這種方法屬於有失真壓縮。

如果想要搞清楚這個問題，就要從影象是如何被數字化的談起。先來看一張玩具鴨子的圖片是怎麼被數字化的。

首先，要把這張圖片分成若干小塊，每個小塊中的顏色用一個數字來表示。如果影象是純黑純白兩色的，那每塊只用1 或0 表示即可。如果影象是16 色的，那每塊就要用4 位二進位制數來表示，因為4 位二進位制數有16 種組合，每種組合表示一種顏色，正好可以表示16 種顏色。而真彩色點陣圖的每個小塊，都是由不同等級的紅、綠、藍三種色彩組合的，表達起來就更復雜一些。如果每種顏色有28 個等級，那就可以有224 種顏色，這樣一來，每小塊就需要24 位二進位制數來表示，才能囊括所有色彩。

由此可見，數字影象色彩越絢麗，需要記錄的二進位制數就越多。小色塊越多，分佈得越密，則一幅圖的總資料量就越大。

回頭來看這個玩具鴨子圖片，如果像圖中所示被分成了154 個色塊（11×14）（11×14），並按真彩色點陣圖來計算，則總資料量就是154×24=3696154×24=3696位元。這些小格子顯然是太大了，如果這樣來切分圖片，還原後的圖片就不能表現圖片的細節。在實際應用中切分的格子要密得多。這些格子其實就是我們常說的畫素。格子分得越多表示畫素越高，也就是解析度越高，大家都熟悉的顯示器解析度就是1024×7681024×768。所謂數字化圖片，就是將圖片的畫面資訊用二進位制數字來表示。

知道了影象數字化的道理，再來看影象為什麼可以被壓縮和還原。先看一張滑雪圖，由於人體的色彩變化比較多，而天空和雪的色彩卻非常單調，可以想象，天空與雪所代表的每個小格顏色的數值應該非常接近，圖右下的原始資料是8個相鄰格子的色彩資料，由於兩個相鄰格子的資料差異很小，所以可以用第一個格子的資料來表達第二個格子資料的預測值，經實際測量後，把真實值與預測值的差值求出來，並利用這個差值來表示第二個格子的色彩，那麼，實際記錄下的就是第三行差值。恢復資料時，用前面一個值加上差值，就是當前的色彩值，只要有第一位的基礎值，後面的色彩值就可以滾雪球似的一個個求出來。用差值來記錄色彩，只是簡單地進行了很多個減法運算，在還原時再加回來，資料並沒有一丁點的損失，因此被稱為無失真壓縮。如果把很少的差值徹底丟棄，在還原時讓一個格子的色彩資訊代表了周圍很多格子的色彩，則壓縮率更高，但這樣一來格子之間的微小差別就丟失了，這種方法屬於有失真壓縮。

壓縮檔案有很多種格式，你在自己的圖片檔案後看到的“.bmp”或“.jpg”就是檔案格式的名稱。bmp 格式是將影象的每個格子都獨立記錄的，因此資料量很大。如果按照前述的預測差值運算後，就變成了有失真壓縮式，jpg 格式就是其中之一。對於畫質基本相同的兩幅影象，jpg 格式的資料量要比bmp 小得多。不過，雖然jpg 是有失真壓縮的，但畫質的損失非常小。因為它是很智慧的，比如它可以自動對有大面積相似色彩的飛機圖片給予較大的壓縮率，而對人群圖片給予較小的壓縮率。

相對於上述的靜態的影象壓縮，視訊影象的壓縮率就更大了。視訊影象檔案也有很多檔案格式。一般情況下，一秒鐘視訊會切換成幾十張畫面，而這些畫面的絕大部分都是相同的，可是採集是每幅獨立採的，因此生成的avi格式的資料量是很大的。不僅每幅畫面本身可以壓縮，更重要的是幅與幅之間也可以壓縮，這就形成了資料量小得多的mpeg 格式。當然，也可以採用壓縮率更高的rm 格式。rm 格式的畫質比mpeg 差得不多，但資料量卻小了很多倍，更方便在網上傳輸。

不同的視訊，幅與幅之間的相似度是不同的，有些相似度很大的電視劇，也許在幾分鐘內，演員都坐在沙發上聊天，除了嘴巴動作外每幅畫面都基本一樣，對這種視訊可以採用較大的壓縮率，而對動感性很強的武打片，則需要採用較小的壓縮率，這種格式就是rmvb。跟rm 格式不同的是，它的壓縮率是可變的，vb 就是可變位元率的意思。rmvb 則比rm 更先進，相同資料量的rmvb 視訊會比rm 視訊清晰，而相同清晰度的視訊，rmvb 格式的資料量會更小。

是不是一旦進行了有失真壓縮，資料缺失了，畫質就很難復原了？是很難復原，但這也並不是完全不可能，這裡面有個關鍵的概念是“先驗資訊”（先驗資訊也就是我們以前已經知道了的知識）。例如下圖左邊這張民國女性黑白照片的嘴脣，要壓縮成這個灰度，右邊的彩色圖例中有五種可能，但通過先驗資訊知道，美女的嘴脣不可能是綠的、藍的和紫的，只能是右下的紅色，把它還原成紅色就對了。

根據先驗資訊我們知道，只有極少數的組合是經常出現的，絕大多數的組合是基本不會出現的，如果我們得到了一組模糊不清的組合，它跟經常出現的某個組合與基本不會出現的某個組合的相似度一樣，那我們就毫不猶豫地認定它就是那個經常出現的組合。當然，它是那個基本不會出現的組合的可能性也是不能排除的。就好比那個民國美女如果真的塗了藍嘴脣，那我們依靠先驗資訊做的判斷就可能出錯了。

數字影象壓縮