口號大全團隊口號個性簽名藝術簽名經典古詩古詩大全成語故事成語大全漢語詞典字典詞典成語查詢四字成語成語經典成語解釋成語用法

什麽是UNICODE

Unicode是國際組織制定的可以容納世界上所有文字和符號的字符編碼方案。Unicode用數字0-0x10FFFF來映射這些字符，最多可以容納1114112個字符，或者說有1114112個碼位。碼位就是可以分配給字符的數字。UTF-8、UTF-16、UTF-32都是將數字轉換到程序數據的編碼方案。

Unicode字符集可以簡寫為UCS（Unicode Character Set）。早期的Unicode標準有UCS-2、UCS-4的說法。UCS-2用兩個字節編碼，UCS-4用4個字節編碼。UCS-4根據最高位為0的最高字節分成2^7=128個group。每個group再根據次高字節分為256個平面（plane）。每個平面根據第3個字節分為256行（row），每行有256個碼位（cell）。group 0的平面0被稱作BMP（Basic Multilingual Plane）。將UCS-4的BMP去掉前面的兩個零字節就得到了UCS-2。

每個平面有2^16=65536個碼位。Unicode計劃使用了17個平面，壹***有17*65536=1114112個碼位。在Unicode 5.0.0版本中，已定義的碼位只有238605個，分布在平面0、平面1、平面2、平面14、平面15、平面16。其中平面15和平面16上只是定義了兩個各占65534個碼位的專用區（Private Use Area），分別是0xF0000-0xFFFFD和0x100000-0x10FFFD。所謂專用區，就是保留給大家放自定義字符的區域，可以簡寫為PUA。

平面0也有壹個專用區：0xE000-0xF8FF，有6400個碼位。平面0的0xD800-0xDFFF，***2048個碼位，是壹個被稱作代理區（Surrogate）的特殊區域。代理區的目的用兩個UTF-16字符表示BMP以外的字符。在介紹UTF-16編碼時會介紹。

如前所述在Unicode 5.0.0版本中，238605-65534*2-6400-2408=99089。余下的99089個已定義碼位分布在平面0、平面1、平面2和平面14上，它們對應著Unicode目前定義的99089個字符，其中包括71226個漢字。平面0、平面1、平面2和平面14上分別定義了52080、3419、43253和337個字符。平面2的43253個字符都是漢字。平面0上定義了27973個漢字。