古詩詞大全網 - 成語故事 - 通俗的講,什麽是unicode?

通俗的講,什麽是unicode?

Unicode(統壹碼、萬國碼、單壹碼)是壹種在計算機上使用的字符編碼。它為每種語言中的每個字符設定了統壹並且唯壹的二進制編碼,以滿足跨語言、跨平臺進行文本轉換、處理的要求。1990年開始研發,1994年正式公布。隨著計算機工作能力的增強,Unicode也在面世以來的十多年裏得到普及。最新版本的 Unicode 是 2006年7月14日推出的Unicode 5.0.0。

Unicode 的編碼方式與 ISO 10646 的通用字符集對應,使用16位的編碼空間,每個字符占用2個字節。理論上最多可以表示65536 個字符。基本滿足各種語言的使用。實際上目前版本的 Unicode 尚未填充滿這16位編碼,保留了大量空間作為特殊使用或將來擴展。

上述16位 Unicode 字符構成基本多文種平面(Basic Multilingual Plane, 簡稱 BMP)。最新(但未實際廣泛使用)的 Unicode 版本定義了16個輔助平面,兩者合起來至少需要占據21位的編碼空間,比3字節略少。但事實上輔助平面字符仍然占用4字節編碼空間,與 UCS-4 保持壹致。未來版本會擴充到 ISO 10646-1 實現級別3,即涵蓋 UCS-4 的所有字符。UCS-4 是壹個更大的尚未填充完全的31位字符集,加上恒為0的首位,***需占據32位,即4字節。理論上可以涵蓋壹切語言所用的符號。

BMP 字符的 Unicode 編碼表示為 U+hhhh,其中每個 h 代表壹個十六進制數位。與 UCS-2 編碼完全相同。對應的4字節 UCS-4 編碼後兩個字節壹致,前兩個字節的所有位均為0。

Unicode 的傳輸常用Unicode轉換格式(Unicode Translation Format,簡稱為 UTF)。例如UTF-8。它是在Unicode基礎上為提高傳輸效率的壹種變長編碼。