國家標準代碼

維基百科,自由的百科全書
(重新導向自 GB码)
跳至導覽 跳至搜尋

國家標準代碼,簡稱國標碼,是中華人民共和國的中文常用漢字編碼集,亦為新加坡採用。

目前中華人民共和國官方強制使用GB 18030–2005標準,但GB 2312–80仍然在部分領域被使用。

強制標準冠以「GB」。推薦標準冠以「GB/T」。國家標準化指導性技術文件冠以「GB/Z」。

常見國家標準代碼列表[編輯]

  • GB 2312–80《信息交換用漢字編碼字符集 基本集》(又稱 GB 或 GB0)
  • GB 13000–2010《信息技術 通用多八位編碼字符集(UCS)》(相當於 ISO/IEC 10646:2003 中文版)
    • 已作廢之舊版:GB 13000.1–93《信息技術 通用多八位編碼字符集(UCS)第一部分:體系結構與基本多文種平面》(相當於 ISO 10646–1:1993 中文版)
  • GB 18030–2005《信息技術 中文編碼字符集》,依照UCS定義。GB 18030可以表示代理對(surrogate pair)之外的所有Unicode碼位,因此可算為一種「統一碼變換格式」Unicode Transformation Format)。
    • 已作廢之舊版:GB 18030–2000《信息技術 信息交換用漢字編碼字符集 基本集的擴充》

其他中華人民共和國發布有關漢字標準代碼列表:

  • GB 12345–90《信息交換用漢字編碼字符集 輔助集》(又稱 GB1)
  • GB/T 7589–87《信息交換用漢字編碼字符集 第二輔助集》(又稱 GB2)
  • GB 13131–91《信息交換用漢字編碼字符集 第三輔助集》(又稱 GB3)
  • GB/T 7590–87《信息交換用漢字編碼字符集 第四輔助集》(又稱 GB4)
  • GB 13132–91《信息交換用漢字編碼字符集 第五輔助集》(又稱 GB5)
  • GB/T 16500–1998《信息交換用漢字編碼字符集 第七輔助集》
  • SJ/T 11239–2001《信息技術 信息交換用漢字編碼字符集 第八輔助集》
  • GB 8565.2–88《信息處理文本通訊用編碼字符集 第二部分》

由於 GB 2312–80 只收錄了6,763個漢字,未能覆蓋繁體中文字、部分人名、方言、古漢語等方面出現的罕用字,所以發布了以上的輔助集。

其中,GB 12345–90輔助集是GB 2312–80基本集的繁體字版本;GB 13131–91是GB/T 7589–87的繁體字版本;GB 13132–91是GB/T 7590–87的繁體字版本。而GB/T 16500–1998是繁體字版本,並無對應的簡體字版本。

鑒於第二輔助集及第四輔助集,有不少漢字均是「類推簡化漢字」,實用性不高,因而較少人採用,而且沒有收入通用字符集ISO/IEC 10646 標準[1]

中華人民共和國國家標準總局於2000年推出強制性的GB 18030–2000標準。於2001年8月31日後發布或出廠的產品,必須符合GB 18030–2000的相關要求。這個標準的最新版本是GB 18030–2005,它的單字節編碼部分、雙字節編碼部分和四字節編碼部分的CJK統一漢字擴充A(0x8139EE39–0x82358738)部分為強制性。

相關標準列表(按首次出版時間排列)[編輯]

標準號 名稱 別名 ISO 10646 字源代號[2] 漢字數 備注
GB 2312–80 信息交換用漢字編碼字符集 基本集 GB G0 6,763 GB 6345.1–86 等字模集有附錄對 GB 2312–80 之修訂,但 GB 2312 本身一直未有更新,詳見 GB 2312 條目。
GB/T 7589–87 信息交換用漢字編碼字符集 第二輔助集 GB2   7,237 向 ISO 10646 提交時使用繁體字版本。
GB/T 7590–87 信息交換用漢字編碼字符集 第四輔助集 GB4   7,039 向 ISO 10646 提交時使用繁體字版本。
  現代漢語通用字表   G7 7,000
GB 8565.2–88 信息處理文本通訊用編碼字符集 第二部分   G8 636 主要用於電訊;GB2漢字520個、GB4漢字92個、來自《第一批異體字整理表》之異體字23個及「啰」字。此字符集補充了 GB 2312,使之能包括整個《現代漢語通用字表》。
GB 12052–89 信息交換用朝鮮文字編碼字符集   GK  
GB 12345–90 信息交換用漢字編碼字符集 第一輔助集 GB1 G1 6,866 GB 2312 繁體版,增補103字。
GB 13131–91 信息交換用漢字編碼字符集 第三輔助集 GB3 G3 7,237 GB/T 7589 非簡化形式
GB 13132–91 信息交換用漢字編碼字符集 第五輔助集 GB5 G5 7,039 GB/T 7590 非簡化形式
ISO-IR-165 通訊用中文多位元組字符集     8,464[3] 集合 GB 2312–80(包括 GB 6345.1–86 新增之字符及調整)及 GB 8565.2–88。
GB 13000–2010 信息技術 通用多八位編碼字符集(UCS)第一部分     70,207 替代 GB 13000.1–93《信息技術 通用多八位編碼字符集(UCS)第一部分》,20,914字,舊版已作廢。

另有302個兼容漢字(當中十二個:U+FA0E, U+FA0F, U+FA11, U+FA13, U+FA14, U+FA1F, U+FA21, U+FA23, U+FA24, U+FA27, U+FA28 及 U+FA29 有獨立形音義,統一碼聯盟建議不要視之為兼容漢字)。舊版已作廢。
GBK 漢字擴展內碼規範[4]     21,003 除了來自 ISO 10646–1 / GB 13000.1 之20,902字,另有 ISO 10646–1 / GB 13000.1 中21個兼容漢字(包括上述12個有獨立形音義兼容字),以方便和 Big5CNS11643JISIBM 文件雙向轉換[4]、未收入 ISO 10646 的《簡化字總表》漢字52個、《康熙字典》及《辭海漢字部件28個;後80字暫時對應 Unicode 編碼之私人使用區(造字),新版 Unicode 已全部收納。Microsoft Code Page 936 收入21個兼容漢字[5][6],未收後80字。
GB/T 15564–1995 圖文電視廣播用漢字編碼字符集 香港子集   GH 111 所有字皆來自 GB 13000.1。
GB/T 16500–1998 信息交換用漢字編碼字符集 第七輔助集   GE 3,778 其他 GB 未收錄之 GB 13000.1 漢字。
GB 18030–2000 信息技術 中文編碼字符集   G9 27,533 CJK、CJK 擴展A區、21 個兼容區漢字、當年 ISO/IEC 10646–1:2000 / Unicode 3.0 仍未編碼的 28 個收錄在 FE 私有造字區段的漢字和漢字部件。

定義了除代理對之外所有Unicode基本平面字符的四字節表示方式。

SJ/T 11239–2001 信息技術 信息交換用漢字編碼字符集 第八輔助集     2,501 收錄GB 2312、GB 7589和GB 7590未收入的漢字,主要用於地名。
GB 18030–2005 信息技術 中文編碼字符集     70,244 CJK、CJK 擴展A區、CJK 擴展B區、21 個兼容區漢字、28 個收錄在 FE 區段的漢字和漢字部件。替代 GB 18030–2000。

定義了除代理對之外所有Unicode字符的四字節表示方式。

參看[編輯]

注釋[編輯]

  1. ^ ISO 10646 收錄的是其非簡化形式(unsimplified forms),見中日韓統一表意文字#字源
  2. ^ http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg50/IRGN2297GSourceChanges.pdf
  3. ^ 一說8,443(Ken Lunde, CJKV Information Processing, 1999, O'Reilly & Associates, Inc., P.82)
  4. ^ 4.0 4.1 簡體中文版 Windows 95 「GBK 內碼輸入法」幫助文件,1995年
  5. ^ http://www.microsoft.com/globaldev/reference/dbcs/936/936_FD.mspx
  6. ^ http://www.microsoft.com/globaldev/reference/dbcs/936/936_FE.mspx

外部連結[編輯]