國家標準代碼

維基百科,自由的百科全書
(已重新導向自 GB码
前往: 導覽搜尋

國家標準代碼,簡稱國標碼,是中華人民共和國的中文常用漢字編碼集,亦為新加坡採用。

目前中華人民共和國官方強制使用GB 18030–2005標準,但GB 2312–80仍然在部分領域被使用。

強制標準冠以「GB」。推薦標準冠以「GB/T」。國家標準化指導性技術文件冠以「GB/Z」。

常見國家標準代碼列表[編輯]

  • GB 2312–80《信息交換用漢字編碼字符集 基本集》(又稱 GB 或 GB0)
  • GB 13000–2010《信息技術 通用多八位編碼字符集(UCS)》(相當於 ISO/IEC 10646:2003 中文版)
    • 已作廢之舊版:GB 13000.1–93《信息技術 通用多八位編碼字符集(UCS)第一部分:體系結構與基本多文種平面》(相當於 ISO 10646–1:1993 中文版)
  • GB 18030–2005《信息技術 中文編碼字符集》,依照UCS定義。GB 18030可以表示代理對(surrogate pair)之外的所有Unicode碼位,因此可算為一種「統一碼變換格式」Unicode Transformation Format)。
    • 已作廢之舊版:GB 18030–2000《信息技術 信息交換用漢字編碼字符集 基本集的擴充》

其他中華人民共和國發布有關漢字標準代碼列表:

  • GB 12345–90《信息交換用漢字編碼字符集 輔助集》(又稱 GB1)
  • GB/T 7589–87《信息交換用漢字編碼字符集 第二輔助集》(又稱 GB2)
  • GB 13131–91《信息交換用漢字編碼字符集 第三輔助集》(又稱 GB3)
  • GB/T 7590–87《信息交換用漢字編碼字符集 第四輔助集》(又稱 GB4)
  • GB 13132–91《信息交換用漢字編碼字符集 第五輔助集》(又稱 GB5)
  • GB/T 16500–1998《信息交換用漢字編碼字符集 第七輔助集》
  • SJ/T 11239–2001《信息技術 信息交換用漢字編碼字符集 第八輔助集》
  • GB 8565.2–88《信息處理文本通訊用編碼字符集 第二部分》

由於 GB 2312–80 只收錄了6,763個漢字,未能覆蓋繁體中文字、部分人名、方言、古漢語等方面出現的罕用字,所以發布了以上的輔助集。

其中,GB 12345–90輔助集是GB 2312–80基本集的繁體字版本;GB 13131–91是GB/T 7589–87的繁體字版本;GB 13132–91是GB/T 7590–87的繁體字版本。而GB/T 16500–1998是繁體字版本,並無對應的簡體字版本。

鑒於第二輔助集及第四輔助集,有不少漢字均是「類推簡化漢字」,實用性不高,因而較少人採用,而且沒有收入通用字符集ISO/IEC 10646 標準[1]

中華人民共和國國家標準總局於2000年推出強制性的GB 18030–2000標準。於2001年8月31日後發布或出廠的產品,必須符合GB 18030–2000的相關要求。這個標準的最新版本是GB 18030–2005,它的單字節編碼部分、雙字節編碼部分和四字節編碼部分的CJK統一漢字擴充A(0x8139EE39–0x82358738)部分為強制性。

相關標準列表(按首次出版時間排列)[編輯]

標準號 名稱 別名 漢字數 備注
GB 2312–80 信息交換用漢字編碼字符集 基本集 GB / GB0 6,763 GB 6345.1–86 等字模集有附錄對 GB 2312–80 之修訂,但 GB 2312 本身一直未有更新,詳見 GB 2312 條目。
GB/T 7589–87 信息交換用漢字編碼字符集 第二輔助集 GB2 7,237 向 ISO 10646 提交時使用繁體字版本。
GB/T 7590–87 信息交換用漢字編碼字符集 第四輔助集 GB4 7,039 向 ISO 10646 提交時使用繁體字版本。
GB 8565.2–88 信息處理文本通訊用編碼字符集 第二部分 (無)[2] 636 主要用於電訊;GB2漢字520個、GB4漢字92個、來自《第一批異體字整理表》之異體字23個及「啰」字。此字符集補充了 GB 2312,使之能包括整個《現代漢語通用字表》。
GB 12345–90 信息交換用漢字編碼字符集 第一輔助集 GB1 6,866 GB 2312 繁體版,增補103字。
GB 13131–91 信息交換用漢字編碼字符集 第三輔助集 GB3 7,237 GB/T 7589 繁體版。
GB 13132–91 信息交換用漢字編碼字符集 第五輔助集 GB5 7,039 GB/T 7590 繁體版。
ISO-IR-165 通訊用中文多位元組字符集 (無) 8,464[3] 集合 GB 2312–80(包括 GB 6345.1–86 新增之字符及調整)及 GB 8565.2–88。
GB 13000.1–93 信息技術 通用多八位編碼字符集(UCS)第一部分 (無) 20,914 另有302個兼容漢字(當中十二個:U+FA0E, U+FA0F, U+FA11, U+FA13, U+FA14, U+FA1F, U+FA21, U+FA23, U+FA24, U+FA27, U+FA28 及 U+FA29 有獨立形音義,統一碼聯盟建議不要視之為兼容漢字)。舊版已作廢。
GBK 漢字擴展內碼規範[4] (無) 21,003 除了來自 ISO 10646–1 / GB 13000.1 之20,902字,另有 ISO 10646–1 / GB 13000.1 中21個兼容漢字(包括上述12個有獨立形音義兼容字),以方便和 Big5CNS11643JISIBM 文件雙向轉換[4]、未收入 ISO 10646 的《簡化字總表》漢字52個、《康熙字典》及《辭海漢字部件28個;後80字暫時對應 Unicode 編碼之私人使用區(造字),新版 Unicode 已全部收納。Microsoft Code Page 936 收入21個兼容漢字[5][6],未收後80字。
GB/T 15564–1995 圖文電視廣播用漢字編碼字符集 香港子集 (無) 111 所有字皆來自 GB 13000.1。
GB/T 16500–1998 信息交換用漢字編碼字符集 第七輔助集 (無)[7] 3,778 其他 GB 未收錄之 GB 13000.1 漢字。
GB 18030–2000 信息技術 中文編碼字符集 (無)[8] 27,533 CJK、CJK 擴展A區、21 個兼容區漢字、當年 ISO/IEC 10646–1:2000 / Unicode 3.0 仍未編碼的 28 個收錄在 FE 私有造字區段的漢字和漢字部件。舊版已作廢。

定義了除代理對之外所有Unicode基本平面字符的四字節表示方式。

SJ/T 11239–2001 信息技術 信息交換用漢字編碼字符集 第八輔助集 GB8 2,501 收錄GB 2312、GB 7589和GB 7590未收入的漢字,主要用於地名。
GB 18030–2005 信息技術 中文編碼字符集 (無) 70,244 CJK、CJK 擴展A區、CJK 擴展B區、21 個兼容區漢字、28 個收錄在 FE 區段的漢字和漢字部件。替代 GB 18030–2000。

定義了除代理對之外所有Unicode字符的四字節表示方式。

GB 13000–2010 信息技術 通用多八位編碼字符集(UCS) (無) 70,207 替代 GB 13000.1–93。

參看[編輯]

注釋[編輯]

  1. ^ ISO 10646 收錄的是其非簡化形式(unsimplified forms),見中日韓統一表意文字#字源
  2. ^ 向 ISO 10646 提交漢字時稱為 G8
  3. ^ 一說8,443(Ken Lunde, CJKV Information Processing, 1999, O'Reilly & Associates, Inc., P.82)
  4. ^ 4.0 4.1 簡體中文版 Windows 95 「GBK 內碼輸入法」幫助文件,1995年
  5. ^ http://www.microsoft.com/globaldev/reference/dbcs/936/936_FD.mspx
  6. ^ http://www.microsoft.com/globaldev/reference/dbcs/936/936_FE.mspx
  7. ^ 在 ISO 10646 文件中稱為 GE;本應稱為「GB7」,但中國向 ISO 10646 提交漢字時將《現代漢語通用字表》稱為 G7
  8. ^ 在 ISO 10646 文件中稱為 G9

外部連結[編輯]