GB 18030
GB 18030,最新版本为GB 18030-2005,其全称为中华人民共和国国家标准GB 18030-2005《信息技术 中文编码字符集》,是中华人民共和国现时最新的内码字集,是GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》的修订版。与GB 2312-1980完全兼容,与GBK基本兼容,支持GB 13000及Unicode的全部统一汉字,共收录汉字70244个。
GB 18030主要有以下特点:
- 與 UTF-8 相同,采用多字节编码,每个字可以由1个、2个或4个字节组成。
- 编码空间庞大,最多可定义161万个字元。
- 支持中国国內少数民族的文字,不需要动用造字区。
- 汉字收录范围包含繁体汉字以及日韩汉字
GB 18030标准的初版是GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》,它是由中华人民共和国信息产业部电子工业标准化研究所、北京大学计算机技术研究所、北大方正集团、北京方正新天地信息网络科技有限责任公司、四通集团公司、中科院软件所、长城软件公司、四通利方公司、中软总公司、金山软件公司、联想公司起草,由国家质量技术监督局于2000年3月17日发布。GB 18030标准从生效之日期起,同时代替原国家技术监督局标准化司和原电子工业部科技与质量监督司联合以技监标函1995229号文发布和实施的技术规范指导性文件《汉字内码扩展规范(GBK)》1.0版。
现行版本GB 18030-2005《信息技术 中文编码字符集》为GB 18030标准的第一次修订版,由国家质量监督检验总局和中国国家标准化管理委员会于2005年11月8日发布,2006年5月1日实施。本标准的单字节编码部分、双字节编码部分和四字节编码部分的CJK统一汉字扩充A(即0x8139EE39--0x82358738)部分为强制性。本标准代替GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》。
目录 |
[编辑] GB 18030-2000
[编辑] GB 18030-2005
此标准的单字节编码部分、双字节编码部分和四字节编码部分的CJK统一汉字扩充A(即0x8139EE39--0x82358738)部分为强制性。
此标准代替GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》。此标准与上一版比,增加了编码汉字的数量,并补充规定了中国部分少数民族文字在此标准中的代码位置;此标准重新规定了字符“ḿ”的编码位置;此标准的编码体系结构保持不变。
此标准的附录A、附录B、附录C、附录D和附录E是规范性附录。
此标准由中国人民共和国信息产业部提出。
此标准由中国电子技术标准化研究所归口。
此标准起草单位:中华人民共和国信息产业部电子工业标准化研究所、北京大学计算机技术研究所、北大方正集团、北京方正新天地信息网络科技有限责任公司、四通集团公司、中国电子信息产业发展研究所、中科院软件所、长城软件公司、四通利方公司、中软总公司、金山软件公司、联想集团有限公司。
此标准主要起草人:陈堃銶、黄疆、胡万进、张建国、陈壮。
- 范围
- 此标准作为GB/T 2311体系的编码字符标准,规定了信息技术用的中文图形字符及其二进制编码的十六进制表示。
- 此标准适用于图形字符信息的处理、交换、存储、传输、显现、输入和输出。
- 规范性引用文件
- 下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。
- GB/T 2311-2000《信息处理 字符代码结构与扩充技术》(idt ISO/IEC 2022:1994)
- GB 2312-1980《信息交换用汉字编码字符集 基本集》
- GB/T 11383-1989《信息处理 信息交换用八位代码结构与编码规则》(idt ISO 4873:1986)
- GB 12345-1990《信息处理用汉字编码字符集 辅助集》
- GB 13000.1-1993《信息技术 通用八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面》(idt ISO/IEC 10646-1:1993)
- 原则
- 此标准向下与国家标准GB 2312信息处理交换码所对应的内码兼容。
- 此标准在字汇上支持GB 13000的全部中、日、韩(CJK)统一汉字(包括CJK统一汉字扩充A、CJK统一汉字扩充B)字符和中国部分少数民族文字的字符。
- 术语与定义
- 下列术语和定义适用于此标准。
- 字符 character:供组织、控制或表示数据用的元素集合中的一个元素。
- 编码字符 coded character:字符及其编码表示。
- 字汇 repertoire:用编码字符集表示的一个指定的字符集合。
- 保留区 reserved zone:此标准中留作未来国家标准规定的区域。
- 字汇
- 此标准收录的字符以单字节、双字节或四字节编码。
-
- 单字节部分
- 此标准中,单字节的部分收录了GB/T 11383-1989的0x00到0x7F全部128个字符。
-
- 双字节部分
- 此标准中,双字节的部分收录内容如下:
- GB 13000.1-1993的全部CJK统一汉字字符。
- GB 13000.1-1993的CJK兼容区中的21个汉字。
- GB 13000.1-1993中收录而GB 2312未收录的台湾使用的图形字符139个。
- GB 13000.1-1993收录的其他字符31个。
- GB 2312-1980中的非汉字标点。
- GB 12345-1980的竖排标点符号19个。
- GB 2312-1980未收录的10个小写罗马数字。
- GB 2312-1980未收录的带音调的汉语拼音字母5个以及a和g。
- 汉字数字“〇”。
- 表意文字描述符13个。
- 对GB 13000.1-1993增补的汉字和部首/构件80个。
- 双字节编码的欧元符号。
-
- 四字节部分
- 此标准的四字节的部分,收录了上述双字节字符之外的,GB 13000的CJK统一汉字扩充A、CJK统一汉字扩充B和已经在GB 13000中编码的中国少数民族文字的字符。
- 总体结构
- 此标准中,采用单字节、双字节或四字节对字符编码。此标准中的任何一个字节由八位二进制位串组成,任何一个八位的值均由0x00至0xFF的十六进制计数法表示。此标准中,凡数字前标有0x的表示采用十六进制,未标有0x的表示采用十进制。
- 单字节部分采用GB/T 11383-1989的编码结构与规则,使用0x00至0x7F码位。
- 双字节部分采用两个八位二进制位串表示一个字符,其首字节码位从0x81至0xFE,尾字节码位分别是0x40至0x7E和0x80至0xFE。
- 四字节部分采用GB/T 11383-1989未采用的0x30至0x39作为对双字节编码的扩充的后缀。这样扩充的四字节编码,其范围为0x81308130到0xFE39FE39。四字节字符的第一个字节的编码为0x81至0xFE;第二个字节的编码范围为0x30至0x39;第三个字节编码范围为0x81至0xFE;第四个字节编码范围为0x30至0x39。
[编辑] 版本
- GB 18030-2000,兼容 Unicode 3.0 中日韓統一表意文字,共收27533个汉字;2000年3月17日发布
- GB 18030-2005,更新至 Unicode 4.1 中日韓統一表意文字及增加少数民族文字,共有70244个汉字;2005年11月8日发布、2006年5月1日实施
[编辑] GB 18030与Unicode的关系
GB 18030是一种对字符集的多字节编码格式,相当于UTF-8(对Unicode码点(code point)的编码传输格式),而且都是向后兼容ASCII,并且能表示所有的Unicode码点。GB 18030的四字节编码共有1,587,600 (126×10×126×10), 足以覆盖Unicode的1,111,998 (17×65536 − 2048 surrogates − 66 noncharacters)码点。此外,GB18030还向后兼容了GB 2312与GBK编码。与Unicode码点的映射关系(mapping)一部分要查表,其它可以通过算法求出,这与UTF-8相比不够方便。
U+00DE (Þ) → 81 30 89 37 U+00DF (ß) → 81 30 89 38 U+00E0 (à) → A8 A4 U+00E1 (á) → A8 A2 U+00E2 (â) → 81 30 89 39 U+00E3 (ã) → 81 30 8A 30
[编辑] 参见
[编辑] 外部連結
- GB 18030介绍及其与相关标准的比较
- 新浪网:关于GB18030汉字编码标准集
- 新浪网:电脑汉字不够用 计算机也要“扫盲”
- http://source.icu-project.org/repos/icu/data/trunk/charset/data/xml/gb-18030-2000.xml
- ICU Converter Explorer: GB18030(英语)
- 微软有关GB18030编码的介绍(英语)
- 微软:老旧软体可能发生的兼容问題(英语)
- 微软 Win2000 GB18030 支持包
|
|||||||||||||||||||||||||||||||||||||||||||||||