內碼

本頁使用了標題或全文手工轉換
維基百科,自由的百科全書

電腦科學及相關領域當中,內碼指的是「將資訊編碼後,透過某種方式儲存在特定記憶裝置時,裝置內部的編碼形式」。在不同的系統中,會有不同的內碼。

在以往的英文系統中,內碼為ASCII。 在繁體中文系統中,目前常用的內碼為大五碼。在簡體中文系統中,內碼則為國標碼

為了軟件開發方便,如國際化與本地化,現在許多系統會使用Unicode做為內碼,常見的作業系統WindowsMac OS XLinux皆如此。許多程式語言也採用Unicode為內碼,如JavaPython 3

國際漢字主流內碼[編輯]

Big5大五碼(台港澳專用)[編輯]

  • 名稱取自五大中文套裝軟件,即Big-5軟件,是1984年[1]中華民國財團法人資訊工業策進會台灣13家廠商合作進行「五大軟件專案」,所開發出來的五種中文套裝軟件,分別為「文書處理」、「資料庫」、「試算表」、「通訊」及「繪圖」[2][3][4]
  • 「大五碼」(Big5)是由台灣財團法人資訊工業策進會五大中文套裝軟件所設計的中文共通內碼,在1983年12月完成公告[5][6],隔年3月,資訊工業策進會與臺灣13家廠商簽定「16位元個人電腦套裝軟件合作開發(BIG-5)計劃(五大中文套裝軟件)」[7],因為此中文內碼是為臺灣自行製作開發之「五大中文套裝軟件」所設計的,所以就稱為Big5中文內碼[8][2][9][10]。五大中文套裝軟件雖然並沒有如預期的取代國外的套裝軟件,但隨着採用Big5碼的國喬中文系統倚天中文系統先後在台灣市場獲得成功,使得Big5碼深遠地影響繁體中文電腦內碼,直至今日。「五大碼」的英文名稱「Big5」後來被人按英文字序譯回中文,以致現在有「五大碼」和「大五碼」兩個中文名稱。

Big5碼的產生,是因為當時個人電腦沒有共通的內碼,導致廠商推出的中文應用軟件無法推廣,並且與IBM 5550王安碼等內碼,彼此不能相容;另一方面,台灣當時尚未推出中文編碼標準。在這樣的時空背景下,為了使台灣早日進入資訊年代,所採行的一個計劃;同時,這個計劃對於以台灣為核心的亞洲繁體漢字圈也產生了久遠的影響。

Big5產生前,研發中文電腦朱邦復認為內碼字集應該廣納所有的正異體字,以顧及如戶政等應用上的需要,故在當時的內碼會議中,建議希望採用他的五萬多字的字庫。工程師認為雖其技術可行,但是三個位元組(超過兩個位元組以上)長度的內碼卻會造成英文熒幕畫面對映成中文畫面會發生文字無法對齊的問題,因為當時盛行之倚天中文系統畫面係以兩個位元組文字寬度對映成一個中文字圖樣,英文軟件中只要以兩個英文字寬度去顯示一個中文字,畫面就不會亂掉,造成中文系統業者偏愛二個位元組長度的內碼[11];此外以倉頡輸入碼壓縮成的內碼不具排序等功能,因此未被採用。1983年有人誣指朱邦復為共產黨,其研究成果更不可能獲採用。[12]

在Big5碼誕生後,大部分台灣的電腦軟件都使用了Big5碼,加上後來倚天中文系統的高度普及,使後來的微軟Windows 3.x等亦予以採用。雖然後來台灣還有各種想要取代Big5碼,像是倚天中文系統所推行的倚天碼、台北市電腦公會所推動的公會碼等,但是由於Big5字碼已沿用多年,因此在習慣不易改變的情況下,始終無法成為主流字碼。而台灣後來發展的國家標準CNS 11643中文標準交換碼由於非一般的內碼系統,是以交換使用為目的,受先天所限,必須使用至少三個位元組來表示一個漢字,所以普及率遠遠不及Big5碼。

在1990年代初期,當中國大陸電郵和轉碼軟件還未普遍之時,在深圳的港商和台商公司亦曾經使用Big5系統,以方便與總部的檔案交流、以及避免為大陸的辦公室再寫一套不同內碼的系統。使用簡體中文的社群,最常用的是GB 2312GBK及其後續的國標碼GB 18030)。

現在,除了台灣外,其他使用繁體漢字的地區,如香港澳門,及使用繁體漢字的海外華人,都曾普遍使用Big5碼做為中文內碼及交換碼。由於Big5碼缺乏粵語字,因此有從Big5碼擴充而成的香港增補字符集

GB 18030國標碼(中國大陸專用)[編輯]

GB 18030,全稱:國家標準GB 18030-2022《資訊科技 中文編碼字元集》,是中華人民共和國現時最新的內碼字集,是GB 18030-2005《資訊科技 中文編碼字元集》的後續修訂版,而GB 18030-2005《資訊科技 中文編碼字元集》是GB 18030-2000《資訊科技 資訊交換用漢字編碼字元集 基本集的擴充》的修訂版。與GB 2312-1980完全相容,與GBK基本相容,支援GB 13000Unicode的全部統一漢字,共收錄漢字70244個。

GB 18030主要有以下特點:

  • UTF-8 相同,採用多位元組編碼,每個字可以由1個、2個或4個位元組組成。
  • 編碼空間龐大,最多可定義161萬個字元。
  • 支援中國國內少數民族的文字,不需要動用造字區。
  • 漢字收錄範圍包含繁體漢字以及日韓漢字。

本規格的初版是由中華人民共和國資訊工業部電子工業標準化研究所起草,由國家質素技術監督局於2000年3月17日發佈。現行版本為國家質素監督檢驗總局和中國國家標準化管理委員會於2005年11月8日發佈,2006年5月1日實施。

此標準內的單位元組編碼部分、雙位元組編碼部分,和四位元組編碼部分收錄的中日韓統一表意文字擴充A區漢字,為強制性標準。其他部分則屬於規模性標準。在中華人民共和國境內所有軟件產品,都需要支援這個同時包含單位元組、雙位元組和四位元組編碼的規格。

微軟視窗頁碼為 54936。

漢字總碼(Unihan)[編輯]

  • 共收漢字類漢字74617字(2012),較清初《康熙字典》原有的漢字47035字幾乎多了一倍。包括中日韓越台港澳等各種形式的漢字與類漢字,其中類漢字包括越南字喃、日本和製漢字(與假名相對的真名Mana)、朝鮮漢字特殊字形、港澳粵書、台灣喃書
  • 中日韓統一表意文字(英語:CJK Unified Ideographs),也稱漢字總碼(英語:Unihan),目的是要把分別來自中文日文韓文越南文壯文中,起源相同、本義相同、形狀一樣或稍異的表意文字,賦予其在ISO 10646統一碼標準中相同編碼
  • 所謂「起源相同、本義相同、形狀一樣或稍異的表意文字」,主要為漢字,包括繁體字(台港澳用字)、簡體字(中國大陸用字)、日本漢字漢字/かんじ)、韓國漢字漢字/한자)、越南的喃字𡨸喃Chữ Nôm)與儒字𡨸儒Chữ Nho)、方塊壯字
  • 此計劃原本只包含中文、日文及韓文中所使用的漢字,舊稱中日韓(CJK)統一表意文字Unified Ideographs)。後來,此計劃加入了越南文的喃字,所以合稱中日韓越(CJKV)統一表意文字。

其他使用漢字的地區[編輯]

日本有使用JISShift_JIS編碼,韓國有使用KS X 1001編碼,詳見其條目。

內碼輸入法[編輯]

以內碼作爲輸入的方式稱為內碼輸入法,這並非主流輸入方式,但對於輸入特殊符號則很方便。

註釋[編輯]

參見[編輯]