Unicode 的編碼方式與 ISO 10646 的通用字符集對應,使用16位的編碼空間,每個字符占用2個字節。理論上最多可以表示65536 個字符。基本滿足各種語言的使用。實際上目前版本的 Unicode 尚未填充滿這16位編碼,保留了大量空間作為特殊使用或將來擴展。
上述16位 Unicode 字符構成基本多文種平面(Basic Multilingual Plane, 簡稱 BMP)。最新(但未實際廣泛使用)的 Unicode 版本定義了16個輔助平面,兩者合起來至少需要占據21位的編碼空間,比3字節略少。但事實上輔助平面字符仍然占用4字節編碼空間,與 UCS-4 保持壹致。未來版本會擴充到 ISO 10646-1 實現級別3,即涵蓋 UCS-4 的所有字符。UCS-4 是壹個更大的尚未填充完全的31位字符集,加上恒為0的首位,***需占據32位,即4字節。理論上可以涵蓋壹切語言所用的符號。
BMP 字符的 Unicode 編碼表示為 U+hhhh,其中每個 h 代表壹個十六進制數位。與 UCS-2 編碼完全相同。對應的4字節 UCS-4 編碼後兩個字節壹致,前兩個字節的所有位均為0。
Unicode 的傳輸常用Unicode轉換格式(Unicode Translation Format,簡稱為 UTF)。例如UTF-8。它是在Unicode基礎上為提高傳輸效率的壹種變長編碼。