内码

本页使用了标题或全文手工转换
维基百科,自由的百科全书

电脑科学及相关领域当中,内码指的是“将资讯编码后,透过某种方式存储在特定记忆装置时,装置内部的编码形式”。在不同的系统中,会有不同的内码。

在以往的英文系统中,内码为ASCII。 在繁体中文系统中,目前常用的内码为大五码。在简体中文系统中,内码则为国标码

为了软件开发方便,如国际化与本地化,现在许多系统会使用Unicode做为内码,常见的操作系统WindowsMac OS XLinux皆如此。许多编程语言也采用Unicode为内码,如JavaPython 3

国际汉字主流内码[编辑]

Big5大五码(台港澳专用)[编辑]

  • 名称取自五大中文套装软件,即Big-5软件,是1984年[1]中华民国财团法人信息产业策进会台湾13家厂商合作进行“五大软件项目”,所开发出来的五种中文套装软件,分别为“文字处理”、“数据库”、“表格”、“通讯”及“绘图”[2][3][4]
  • “大五码”(Big5)是由台湾财团法人信息产业策进会五大中文套装软件所设计的中文共通内码,在1983年12月完成公告[5][6],隔年3月,信息产业策进会与台湾13家厂商签定“16位个人电脑套装软件合作开发(BIG-5)项目(五大中文套装软件)”[7],因为此中文内码是为台湾自行制作开发之“五大中文套装软件”所设计的,所以就称为Big5中文内码[8][2][9][10]。五大中文套装软件虽然并没有如预期的取代国外的套装软件,但随着采用Big5码的国乔中文系统倚天中文系统先后在台湾市场获得成功,使得Big5码深远地影响繁体中文电脑内码,直至今日。“五大码”的英文名称“Big5”后来被人按英文字序译回中文,以致现在有“五大码”和“大五码”两个中文名称。

Big5码的产生,是因为当时个人电脑没有共通的内码,导致厂商推出的中文应用软件无法推广,并且与IBM 5550王安码等内码,彼此不能兼容;另一方面,台湾当时尚未推出中文编码标准。在这样的时空背景下,为了使台湾早日进入资讯时代,所采行的一个项目;同时,这个项目对于以台湾为核心的亚洲繁体汉字圈也产生了久远的影响。

Big5产生前,研发中文电脑朱邦复认为内码字集应该广纳所有的正异体字,以顾及如户政等应用上的需要,故在当时的内码会议中,建议希望采用他的五万多字的字库。工程师认为虽其技术可行,但是三个字节(超过两个字节以上)长度的内码却会造成英文屏幕画面映射成中文画面会发生文字无法对齐的问题,因为当时盛行之倚天中文系统画面系以两个字节文字宽度映射成一个中文字图样,英文软件中只要以两个英文字宽度去显示一个中文字,画面就不会乱掉,造成中文系统业者偏爱二个字节长度的内码[11];此外以仓颉输入码压缩成的内码不具排序等功能,因此未被采用。1983年有人诬指朱邦复为共产党,其研究成果更不可能获采用。[12]

在Big5码诞生后,大部分台湾的电脑软件都使用了Big5码,加上后来倚天中文系统的高度普及,使后来的微软Windows 3.x等亦予以采用。虽然后来台湾还有各种想要取代Big5码,像是倚天中文系统所推行的倚天码、台北市电脑公会所推动的公会码等,但是由于Big5字码已沿用多年,因此在习惯不易改变的情况下,始终无法成为主流字码。而台湾后来发展的国家标准CNS 11643中文标准交换码由于非一般的内码系统,是以交换使用为目的,受先天所限,必须使用至少三个字节来表示一个汉字,所以普及率远远不及Big5码。

在1990年代初期,当中国大陆电邮和转码软件还未普遍之时,在深圳的港商和台商公司亦曾经使用Big5系统,以方便与总部的文件交流、以及避免为大陆的办公室再写一套不同内码的系统。使用简体中文的社群,最常用的是GB 2312GBK及其后续的国标码GB 18030)。

现在,除了台湾外,其他使用繁体汉字的地区,如香港澳门,及使用繁体汉字的海外华人,都曾普遍使用Big5码做为中文内码及交换码。由于Big5码缺乏粤语字,因此有从Big5码扩展而成的香港增补字符集

GB 18030国标码(中国大陆专用)[编辑]

GB 18030,全称:国家标准GB 18030-2022《资讯科技 中文编码字符集》,是中华人民共和国现时最新的内码字集,是GB 18030-2005《资讯科技 中文编码字符集》的后续修订版,而GB 18030-2005《资讯科技 中文编码字符集》是GB 18030-2000《资讯科技 资讯交换用汉字编码字符集 基本集的扩充》的修订版。与GB 2312-1980完全兼容,与GBK基本兼容,支持GB 13000Unicode的全部统一汉字,共收录汉字70244个。

GB 18030主要有以下特点:

  • UTF-8 相同,采用多字节编码,每个字可以由1个、2个或4个字节组成。
  • 编码空间庞大,最多可定义161万个字符。
  • 支持中国国内少数民族的文字,不需要动用造字区。
  • 汉字收录范围包含繁体汉字以及日韩汉字。

本规格的初版是由中华人民共和国信息产业部电子工业标准化研究所起草,由国家质量技术监督局于2000年3月17日发布。现行版本为国家质量监督检验总局和中国国家标准化管理委员会于2005年11月8日发布,2006年5月1日实施。

此标准内的单字节编码部分、双字节编码部分,和四字节编码部分收录的中日韩统一表意文字扩展A区汉字,为强制性标准。其他部分则属于规模性标准。在中华人民共和国境内所有软件产品,都需要支持这个同时包含单字节、双字节和四字节编码的规格。

微软视窗代码页为 54936。

汉字总码(Unihan)[编辑]

  • 共收汉字类汉字74617字(2012),较清初《康熙字典》原有的汉字47035字几乎多了一倍。包括中日韩越台港澳等各种形式的汉字与类汉字,其中类汉字包括越南字喃、日本和制汉字(与假名相对的真名Mana)、朝鲜汉字特殊字形、港澳粤书、台湾喃书
  • 中日韩统一表意文字(英语:CJK Unified Ideographs),也称汉字总码(英语:Unihan),目的是要把分别来自中文日文韩文越南文壮文中,起源相同、本义相同、形状一样或稍异的表意文字,赋予其在ISO 10646统一码标准中相同编码
  • 所谓“起源相同、本义相同、形状一样或稍异的表意文字”,主要为汉字,包括繁体字(台港澳用字)、简体字(中国大陆用字)、日本汉字漢字/かんじ)、韩国汉字漢字/한자)、越南的喃字𡨸喃Chữ Nôm)与儒字𡨸儒Chữ Nho)、方块壮字
  • 此计划原本只包含中文、日文及韩文中所使用的汉字,旧称中日韩(CJK)统一表意文字Unified Ideographs)。后来,此计划加入了越南文的喃字,所以合称中日韩越(CJKV)统一表意文字。

其他使用汉字的地区[编辑]

日本有使用JISShift_JIS编码,韩国有使用KS X 1001编码,详见其条目。

内码输入法[编辑]

以内码作为输入的方式称为内码输入法,这并非主流输入方式,但对于输入特殊符号则很方便。

注释[编辑]

参见[编辑]