国家标准代码

维基百科,自由的百科全书
跳到导航 跳到搜索

国家标准代码,简称国标码,是中华人民共和国的中文常用汉字编码集,亦为新加坡采用。

目前中华人民共和国官方强制使用GB 18030–2005标准,但GB 2312–80仍然在部分领域被使用。

强制标准冠以“GB”。推荐标准冠以“GB/T”。国家标准化指导性技术文件冠以“GB/Z”。

常见国家标准代码列表[编辑]

  • GB 2312–80《信息交换用汉字编码字符集 基本集》(又称 GB 或 GB0)
  • GB 13000–2010《信息技术 通用多八位编码字符集(UCS)》(相当于 ISO/IEC 10646:2003 中文版)
    • 已作废之旧版:GB 13000.1–93《信息技术 通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》(相当于 ISO 10646–1:1993 中文版)
  • GB 18030–2005《信息技术 中文编码字符集》,依照UCS定义。GB 18030可以表示代理对(surrogate pair)之外的所有Unicode码位,因此可算为一种“统一码变换格式”Unicode Transformation Format)。
    • 已作废之旧版:GB 18030–2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》

其他中华人民共和国发布有关汉字标准代码列表:

  • GB 12345–90《信息交换用汉字编码字符集 辅助集》(又称 GB1)
  • GB/T 7589–87《信息交换用汉字编码字符集 第二辅助集》(又称 GB2)
  • GB 13131–91《信息交换用汉字编码字符集 第三辅助集》(又称 GB3)
  • GB/T 7590–87《信息交换用汉字编码字符集 第四辅助集》(又称 GB4)
  • GB 13132–91《信息交换用汉字编码字符集 第五辅助集》(又称 GB5)
  • GB/T 16500–1998《信息交换用汉字编码字符集 第七辅助集》
  • SJ/T 11239–2001《信息技术 信息交换用汉字编码字符集 第八辅助集》
  • GB 8565.2–88《信息处理文本通讯用编码字符集 第二部分》

由於 GB 2312–80 只收录了6,763个汉字,未能覆盖繁体中文字、部分人名、方言、古汉语等方面出现的罕用字,所以发布了以上的辅助集。

其中,GB 12345–90辅助集是GB 2312–80基本集的繁体字版本;GB 13131–91是GB/T 7589–87的繁体字版本;GB 13132–91是GB/T 7590–87的繁体字版本。而GB/T 16500–1998是繁体字版本,并无对应的简体字版本。

鉴於第二辅助集及第四辅助集,有不少汉字均是“类推简化汉字”,实用性不高,因而较少人采用,而且沒有收入通用字符集ISO/IEC 10646 標準[1]

中华人民共和国国家标准总局于2000年推出强制性的GB 18030–2000标准。於2001年8月31日后发布或出厂的产品,必须符合GB 18030–2000的相关要求。这个标准的最新版本是GB 18030–2005,它的单字节编码部分、双字节编码部分和四字节编码部分的CJK统一汉字扩充A(0x8139EE39–0x82358738)部分为强制性。

相關標準列表(按首次出版時間排列)[编辑]

標準號 名稱 別名 ISO 10646 字源代號[2] 漢字數 備注
GB 2312–80 信息交换用汉字编码字符集 基本集 GB G0 6,763 GB 6345.1–86 等字模集有附錄對 GB 2312–80 之修訂,但 GB 2312 本身一直未有更新,詳見 GB 2312 條目。
GB/T 7589–87 信息交换用汉字编码字符集 第二辅助集 GB2   7,237 向 ISO 10646 提交時使用繁體字版本。
GB/T 7590–87 信息交换用汉字编码字符集 第四辅助集 GB4   7,039 向 ISO 10646 提交時使用繁體字版本。
  現代漢語通用字表   G7 7,000
GB 8565.2–88 信息处理文本通讯用编码字符集 第二部分   G8 636 主要用於電訊;GB2漢字520個、GB4漢字92個、來自《第一批異體字整理表》之異體字23個及“啰”字。此字符集補充了 GB 2312,使之能包括整個《现代汉语通用字表》。
GB 12052–89 信息交换用朝鲜文字编码字符集   GK  
GB 12345–90 信息交换用汉字编码字符集 第一辅助集 GB1 G1 6,866 GB 2312 繁體版,增補103字。
GB 13131–91 信息交换用汉字编码字符集 第三辅助集 GB3 G3 7,237 GB/T 7589 非簡化形式
GB 13132–91 信息交换用汉字编码字符集 第五辅助集 GB5 G5 7,039 GB/T 7590 非簡化形式
ISO-IR-165 通訊用中文多位元組字符集     8,464[3] 集合 GB 2312–80(包括 GB 6345.1–86 新增之字符及調整)及 GB 8565.2–88。
GB 13000–2010 信息技术 通用多八位编码字符集(UCS)第一部分     70,207 替代 GB 13000.1–93《信息技术 通用多八位编码字符集(UCS)第一部分》,20,914字,舊版已作廢。

另有302個兼容漢字(當中十二個:U+FA0E, U+FA0F, U+FA11, U+FA13, U+FA14, U+FA1F, U+FA21, U+FA23, U+FA24, U+FA27, U+FA28 及 U+FA29 有獨立形音義,統一碼聯盟建議不要視之為兼容漢字)。舊版已作廢。
GBK 汉字扩展内码规范[4]     21,003 除了來自 ISO 10646–1 / GB 13000.1 之20,902字,另有 ISO 10646–1 / GB 13000.1 中21個兼容漢字(包括上述12個有獨立形音義兼容字),以方便和 Big5CNS11643JISIBM 文件雙向轉換[4]、未收入 ISO 10646 的《簡化字總表》漢字52個、《康熙字典》及《辭海漢字部件28個;後80字暫時對應 Unicode 編碼之私人使用區(造字),新版 Unicode 已全部收納。Microsoft Code Page 936 收入21個兼容漢字[5][6],未收後80字。
GB/T 15564–1995 图文电视广播用汉字编码字符集 香港子集   GH 111 所有字皆來自 GB 13000.1。
GB/T 16500–1998 信息交换用汉字编码字符集 第七辅助集   GE 3,778 其他 GB 未收錄之 GB 13000.1 漢字。
GB 18030–2000 信息技术 中文编码字符集   G9 27,533 CJK、CJK 擴展A區、21 個兼容區漢字、當年 ISO/IEC 10646–1:2000 / Unicode 3.0 仍未編碼的 28 個收錄在 FE 私有造字區段的漢字和漢字部件。

定义了除代理对之外所有Unicode基本平面字符的四字节表示方式。

SJ/T 11239–2001 信息技术 信息交换用汉字编码字符集 第八辅助集     2,501 收录GB 2312、GB 7589和GB 7590未收入的汉字,主要用于地名。
GB 18030–2005 信息技术 中文编码字符集     70,244 CJK、CJK 擴展A區、CJK 擴展B區、21 個兼容區漢字、28 個收錄在 FE 區段的漢字和漢字部件。替代 GB 18030–2000。

定义了除代理对之外所有Unicode字符的四字节表示方式。

参看[编辑]

注釋[编辑]

  1. ^ ISO 10646 收錄的是其非簡化形式(unsimplified forms),見中日韓統一表意文字#字源
  2. ^ http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg50/IRGN2297GSourceChanges.pdf
  3. ^ 一說8,443(Ken Lunde, CJKV Information Processing, 1999, O'Reilly & Associates, Inc., P.82)
  4. ^ 4.0 4.1 簡體中文版 Windows 95 “GBK 内码输入法”帮助文件,1995年
  5. ^ http://www.microsoft.com/globaldev/reference/dbcs/936/936_FD.mspx[永久失效連結]
  6. ^ {title}. [2010-01-04]. (原始内容存档于2008-03-07). 

外部链接[编辑]