根據漢字的形態信息,賦予每個字或詞壹個代碼,稱為漢字的字形編碼,簡稱形碼。《鄭碼》是壹種形碼,編碼方法的基本原理是:
把方塊漢字看作由構字單元組合而成,基礎的構字單元是字根,最小構字單元是筆畫。
舉例:“艮、卩、魚、口”4個字根可以合成“即、鯽、唧”等 3 個字根,字根“木、曰”和筆畫“”可合成“劄、電” 2 個字
字根排列的先後順序叫根順,根順與書寫順序壹致。
按逆過程可以把漢字分解成字根和筆畫,按根順依次排列後,代入字根和筆畫的代碼,就能得出漢字的編碼。將編碼輸入計算機,通過機內碼轉換,漢字信息便存貯在計算機裏。
舉例:
鯽 --- 魚\ R 艮\ X 卩\ Y --- RXY
電 --- 曰\ K \ Z --- KZ
《鄭碼》利用字形信息編碼,確立了“筆畫-字根-整字-詞語”這樣壹個檢索序列。就是說,用幾種筆畫的筆形來率領上百個字根,用上百個字根率領上萬個漢字,用上萬個漢字率領數萬條詞語。
為了不同用戶的需求,《鄭碼輸入法》分為《普及型》和《標準型》兩種。《標準型》重碼率低,適合高速盲打輸入。它不但適用於當前通用字符集的 6763 個漢字的輸入,而且用同樣的編碼規則,在WINDOWS 98 中,還能方便地輸入大字符集的 20902 個漢字。《普及型》的編碼規則簡單易學,但不能用來輸入大字符集漢字。《普及型》可以作為《標準型》的學習階梯,因為二者字根的代碼有***性,因此用熟練後能自然過渡到《標準型》。