古詩詞大全網 - 成語故事 - 字符常見的幾種編碼方式

字符常見的幾種編碼方式

無論在是在編輯文本文件的時候,還是在制作網頁的時候,總會遇到文本編碼方式的問題。如果處理不當,就會出現亂碼的問題。因此,有必要對文本的編碼方式做壹個詳盡的了解。

常見的壹些字符編碼方式無非有:Unicode、ASCII、GBK、GB2312、UTF-8。下面先對常見的這壹些字符編碼方式作下說明:

1.ASCII碼

這是美國在19世紀60年代的時候為了建立英文字符和二進制的關系時制定的編碼規範,它能表示128個字符,其中包括英文字符、阿拉伯數字、西文字符以及32個控制字符。它用壹個字節來表示具體的字符,但它只用後7位來表示字符(2^7=128),最前面的壹位統壹規定為0。

2.擴展的ASCII碼

原本的ASCII碼對於英文語言的國家是夠用了,但是歐洲國家的壹些語言會有拼音,這時7個字節就不夠用了。因此壹些歐洲國家就決定,利用字節中閑置的最高位編入新的符號。比如,法語中的é的編碼為130(二進制10000010)。這樣壹來,這些歐洲國家使 用的編碼體系,可以表示最多256個符號。但這時問題也出現了:不同的國家有不同的字母,因此,哪怕它們都使用256個符號的編碼方式,代表的字母卻不壹樣。比如,130在法語編碼 中代表了é,在希伯來語編碼中卻代表了字母Gimel (?),在俄語編碼中又會代表另壹個符號。但是不管怎樣,所有這些編碼方式中,0—127表示的符號是壹樣的,不壹樣的只是128—255的這壹段。這個問題就直接促使了Unicode編碼的產生。

3.Unicode符號集

正如上壹節所說,世界上存在著多種編碼方式,同壹個二進制數字可以被解釋成不同的符號。因此,要想打開壹個文本文件,就必須知道它的編碼方式,否則用錯誤的編碼方式解讀,就會出現亂碼。為什麽電子郵件常常出現亂碼?就是因為發信人和收信人使用的編碼方式不壹樣。而Unicode就是這樣壹種編碼:它包含了世界上所有的符號,並且每壹個符號都是獨壹無二的。比如,U+0639表示阿拉伯字母Ain,U+0041表示英語的大寫字母A,U+4E25表示漢字“嚴”。具體的符號對應表,可以查詢unicode.org,或者專門的漢字對應表 。很多人都說Unicode編碼,但其實Unicode是壹個符號集(世界上所有符號的符號集),而不是壹種新的編碼方式。

但是正因為Unicode包含了所有的字符,而有些國家的字符用壹個字節便可以表示,而有些國家的字符要用多個字節才能表示出來。即產生了兩個問題:第壹,如果有兩個字節的數據,那計算機怎麽知道這兩個字節是表示壹個漢字呢?還是表示兩個英文字母呢?第二,因為不同字符需要的存儲長度不壹樣,那麽如果Unicode規定用2個字節存儲字符,那麽英文字符存儲時前面1個字節都是0,這就大大浪費了存儲空間。

上面兩個問題造成的結果是:1)出現了unicode的多種存儲方式,也就是說有許多種不同的二進制格式,可以用來表示unicode。2)unicode在很長壹段時間內無法推廣,直到互聯網的出現。

4.UTF-8

互聯網的普及,強烈要求出現壹種統壹的編碼方式。UTF-8就是在互聯網上使用最廣的壹種unicode的實現方式。其他實現方式還包括UTF-16和UTF-32,不過在互聯網上基本不用。重復壹遍,這裏的關系是,UTF-8是Unicode的實現方式之壹。

UTF-8最大的壹個特點,就是它是壹種變長的編碼方式。它可以使用1~4個字節表示壹個符號,根據不同的符號而變化字節長度。

UTF-8的編碼規則很簡單,只有兩條:

1)對於單字節的符號,字節的第壹位設為0,後面7位為這個符號的unicode碼。因此對於英語字母,UTF-8編碼和ASCII碼是相同的。

2)對於n字節的符號(n>1),第壹個字節的前n位都設為1,第n+1位設為0,後面字節的前兩位壹律設為10。剩下的沒有提及的二進制位,全部為這個符號的unicode碼。

5.GBK/GB2312/GB18030

GBK和GB2312都是針對簡體字的編碼,只是GB2312只支持六千多個漢字的編碼,而GBK支持1萬多個漢字編碼。而GB18030是用於繁體字的編碼。漢字存儲時都使用兩個字節來儲存。