內碼

维基百科,自由的百科全书
跳转至: 导航搜索

計算機科學及相關領域當中,內碼指的是「將資訊編碼後,透過某種方式儲存在特定記憶裝置時,裝置內部的編碼形式」。在不同的系統中,會有不同的內碼。

在以往的英文系統中,內碼為ASCII。 在繁體中文系統中,目前常用的內碼為大五碼。在簡體中文系統中,內碼則為國標碼

為了軟體開發方便,如國際化與本地化,現在許多系統會使用Unicode做為內碼,常見的作業系統WindowsMac OS XLinux皆如此。許多程式語言也採用Unicode為內碼,如JavaPython 3

國際漢字主流內碼[编辑]

Big5大五碼(台港澳專用)[编辑]

Big5碼的產生,是因為當時個人電腦沒有共通的內碼,導致廠商推出的中文應用軟體無法推廣,並且與IBM 5550王安碼等內碼,彼此不能兼容;另一方面,台灣當時尚未推出中文編碼標準。在這樣的時空背景下,為了使台灣早日進入資訊時代,所採行的一個計畫;同時,這個計畫對於以台灣為核心的亞洲繁體漢字圈也產生了久遠的影響。

Big5產生前,研發中文電腦朱邦復認為內碼字集應該廣納所有的正異體字,以顧及如戶政等應用上的需要,故在當時的內碼會議中,建議希望採用他的五萬多字的字庫。工程師認為雖其技術可行,但是三個位元組(超過兩個位元組以上)長度的內碼卻會造成英文螢幕畫面映射成中文畫面會發生文字無法對齊的問題,因為當時盛行之倚天中文系統畫面係以兩個位元組文字寬度映射成一個中文字圖樣,英文軟體中只要以兩個英文字寬度去顯示一個中文字,畫面就不會亂掉,造成中文系統業者偏愛二個位元組長度的內碼[12];此外以倉頡輸入碼壓縮成的內碼不具排序等功能,因此未被採用。1983年有人誣指朱邦復為共產黨,其研究成果更不可能獲採用。[13]

在Big5碼誕生後,大部分台灣的電腦軟體都使用了Big5碼,加上後來倚天中文系統的高度普及,使後來的微軟Windows 3.x等亦予以採用。雖然後來台灣還有各種想要取代Big5碼,像是倚天中文系統所推行的倚天碼、台北市電腦公會所推動的公會碼等,但是由於Big5字碼已沿用多年,因此在習慣不易改變的情況下,始終無法成為主流字碼。而台灣後來發展的國家標準CNS 11643中文標準交換碼由於非一般的內碼系統,是以交換使用為目的,受先天所限,必須使用至少三個位元組來表示一個漢字,所以普及率遠遠不及Big5碼。

在1990年代初期,當中國大陸電郵和轉碼軟體還未普遍之時,在深圳的港商和台商公司亦曾經使用Big5系統,以方便與總部的文件交流、以及避免為大陸的辦公室再寫一套不同內碼的系統。使用简体中文的社群,最常用的是GB 2312GBK及其後續的國標碼GB 18030)。

現在,除了台灣外,其他使用繁體漢字的地區,如香港澳門,及使用繁體漢字的海外華人,都曾普遍使用Big5碼做為中文內碼及交換碼。

GB 18030國標碼(中國大陸專用)[编辑]

GB 18030,全称:国家标准GB 18030-2005《信息技术 中文编码字符集》,是中华人民共和国现时最新的内码字集,是GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》的修订版。与GB 2312-1980完全兼容,与GBK基本兼容,支持GB 13000Unicode的全部统一汉字,共收录汉字70244个。

GB 18030主要有以下特点:

  • UTF-8 相同,采用多字节编码,每个字可以由1个、2个或4个字节组成。
  • 编码空间庞大,最多可定义161万个字元。
  • 支持中国国內少数民族的文字,不需要动用造字区。
  • 汉字收录范围包含繁体汉字以及日韩汉字。

本规格的初版是由中华人民共和国信息产业部电子工业标准化研究所起草,由国家质量技术监督局于2000年3月17日发布。现行版本为国家质量监督检验总局和中国国家标准化管理委员会于2005年11月8日发布,2006年5月1日实施。

此标准内的单字节编码部分、双字节编码部分,和四字节编码部分收录的中日韩统一表意文字扩展A区汉字,为强制性标准。其他部分则属于规模性标准。在中华人民共和国境内所有软件产品,都需要支持这个同时包含单字节、双字节和四字节编码的规格。

微软视窗代码页为 54936。

Unihan(漢字國際碼/漢字總碼)[编辑]

內碼輸入法[编辑]

以內碼做為輸入的方式稱為內碼輸入法,這並非主流輸入方式,但對於輸入特殊符號則很方便。

參見[编辑]