本页使用了标题或全文手工转换

大五碼

维基百科,自由的百科全书
(重定向自Big5
跳到导航 跳到搜索

大五碼(英語:Big5,又稱為五大碼)是使用繁体中文(正體中文)社群中最常用的電腦漢字字符集標準,共收錄13,060個漢字[1]

中文碼分為內碼交換碼兩類,Big5屬中文內碼,知名的中文交換碼有CCCIICNS11643

Big5雖普及於台灣香港澳門等繁體中文區域,但長期以來並非當地的國家/地區標準或官方標準,而只是業界標準倚天中文系統Windows繁體中文版等主要作業系統的字符集都是以Big5為基準,但廠商又各自增加不同的造字與造字區,衍生成多種不同版本。

2003年,Big5收錄到CNS11643中文標準交換碼的附錄當中,取得了較正式的地位。這個最新版本稱為Big5-2003

歷史及名稱[编辑]

相關標準歷程[编辑]

1983年 「通用漢字標準交換碼」試用版發行,包括13,053個字與441個符號,分為二個字面,先筆畫數,後部首序排列;12月推出的大五碼,包括13,053個字與441個符號,字集與字序與交換碼試用版完全相同,僅字碼定義不同。
1984年 3月:臺灣資策會與其國內13家廠商簽定「五大中文套裝軟體」開發計畫,而「大五碼」即是為「五大中文套裝軟體」所設計之中文內碼。
1997年 Big5+擴編計劃推出,使用了兩萬多碼位,納入了Unicode 1.1下所有漢字;因為Big5+的編碼限制,Big-5E大五碼擴充推出,與1984年版相同,包括13,053個字與441個符號,另於造字區定義3,954個較常使用的造字。
2003年 Big5-2003推出,收錄了所有在1984年Big5編碼的所有字元,另外再加入了微軟代碼頁950的歐元符號,和大部分倚天延伸字集的用字,並把它放到台灣官方的CNS 11643附錄裏,正式成為官方標準的一部分。

字節結構[编辑]

影響[编辑]

中文電腦流行後,由於很多日常用字被視為異體字而未收錄。很多人,甚至電視台的字幕、報紙的用字習慣都被改變。

例如中華民國教育部視「着」為「著」的異體字,故沒有收錄「着」字。康熙字典中的一些部首用字(如「」、「」、「」、「」等)、常見的人名用字(如「堃」(中華民國前行政院長游錫堃)、「煊」(中華民國前監察院院長、前財政部長王建煊)、「栢」(歌手張栢芝)、「峯」(歌手吳青峯林峯)、「喆」(歌手陶喆)等)、「羣」(香港名人李曾超羣)等),雖受中文社會廣泛採用,也沒有收錄到Big5。

另外像臺灣的「」,臺語指製糖所,常見於鄉間地名。但由於大五碼未收此字,也被「廓」、「部」代替。其他未收錄的地名用字,如「磘」,也被「瑤」、「嗂」代替。

互聯網上,經常能見到把游錫堃、王建煊、張栢芝、陶喆等名字,寫成為「游錫方方土」、「王建火宣」、「張木百芝」和「陶吉吉」等。電視上日本動畫的中文字幕中也會看到像“木堅”(樫)這樣的字。

Big5未收錄字舉例[编辑]

  • 倉頡輸入法中卻可輸入。
  • 「邨」、「着」及「綫」在香港極為常用。而且「邨」和「村」、「着」和「著」在香港有客觀的字義分工,不能視爲異體字。
  • 塵「蟎」因為現代人體質易過敏、環境常有過敏源,「蟎」很常用。
未收錄的字 有收錄的字 原因 倉頡拆字碼
俗字 女火戈戈
俗字 女火竹木尸
異體字 水尸人土
異體字 木一日
異體字 山竹水十(2)
異體字 心火一月金(3)
被認為是異體字 心山弓中(2)
被認為是異體字 廿手月山
俗字 水水(3)
異體字 竹大口
異體字 土口土口
異體字 尸口廿手(2)

Big5延伸[编辑]

由於Big5碼內的一萬多個字,只是根據中華民國教育部頒布的《常用國字標準字體表》、《次常用國字標準字體表》等用字匯編而成,並沒有考慮社會上流通的人名、地名用字、方言用字、化學及生物科学等用字,亦沒有放入日語平假名片假名字母。

所以在市面上支援Big5碼的軟件,有不少都自行在原本的編碼外,添加一些符號及用字。

非官方Big5延伸[编辑]

倚天Big5延伸[编辑]

倚天中文系統為與IBM5550碼相容,在Big5碼添加了以下字元,稱為倚天擴充字集

+0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F
C6A0  
C6B0
C6C0
C6D0 ¨ ˆ
C6E0
C6F0  
C740
C750
C760
C770  
C7A0  
C7B0
C7C0
C7D0
C7E0
C7F0 А Б В Г Д Е Ё Ж З И Й К  
C840 Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ
C850 Ы Ь Э Ю Я а б в г д е ё ж з и й
C860 к л м н о п р с т у ф х ц ч ш щ
C870 ъ ы ь э ю я 𠃌 𠂊  
C8A0   𧘇 1- 58 3⁹₈ 3- 3²₁ 4- 5- 6- 81 7- 8-
C8B0 9- 7⁰₈ 6⁰₇ 9²₁ 01 1²₁ 41 2- 5²₁ 71 4⁹₈ 2²₁ 2⁹₈ 6²₁ 1⁰₈ 1⁶₃
C8C0 2⁵₃ 3⁶₃ 4⁶₃ 5⁶₃ 6⁶₃ 7⁶₃ 86 9⁶₅ 0⁶₃ 88 9⁹₈ 08 0-
C8D0                        
F9D0            
F9E0
F9F0  

這個延伸有時稱為Big5-Eten。由於倚天中文系統是Windows 95推出之前市場佔有率最高的中文系統,此延伸是各種非官方延伸當中最重要的一個。不少後續的延伸字集,都會留空倚天Big5延伸已使用的碼位,甚至直接吸納倚天Big5延伸的字符(但位於C8A5至C8CC的行列40輸入法鍵名除外)。

在後期版本的倚天中文系統中,更加入了一些圖案和簡體中文字,但未被廣泛接受。

Code Page 950[编辑]

Windows使用的Code Page 950(參照了IBM Big 5碼的編碼頁號Code Page 950,簡稱CP950)之中,只添加了上述0xF9D6-0xF9FE的倚天擴充字及表格符號,並沒有加入日文假名字母等其他延伸。

Windows ME之中,微軟首度在0xA3E1加入了歐元()符號,之後所有Windows版本的Code Page 950也都有這個符號。

中國海字集[编辑]

中國海字集」是中國海公司所出品的繁體漢字造字檔。它本身雖然是一套商品,但中國海公司很少將之單獨販售,往往是與其他軟體一同銷售。例如:中國海字集就曾經與《漢書》、《輕鬆輸入法》等一同發售。由於它包括了不少社會上常見的用字、日文假名、和字等,加上曾與Office 97中文版一併發售,所以比起其他官方Big5延伸,更被台灣民眾所接受。香港部份BBS網絡在香港增补字符集未出現之前,一度以中國海字集為標準。

日和字集[编辑]

「日和字集」乃香港人內木一郎和阿烈開發的TrueType造字檔,以兼容香港增補字符集為賣點,增補字集中仍沒涵蓋的日語假名日本漢字日本國字,有細明體、標楷體、中黑體等配合Windows 95、98、NT等作業系統字型的字款,並附有倉頡、速成等輸入法作輔助,以及把字集文檔轉換至日語編碼的轉碼器工具。

Unicode補完計畫[编辑]

「Unicode補完計畫」前稱「BIG5 Extension」,透過修改Microsoft Windows及Mozilla的編碼表,從而使用者能在網上傳遞及交換文字。

有鑑於「中國海字集」的成功,「Unicode補完計畫」第二版採用了「中國海字集」原有的造字,再加上「中國海字集」所欠的部分簡體中文字及香港粵語用字,建成一個能在Big5及Unicode之間轉換的編碼表;該計劃目前已推出了64位元測試版。

官方Big5延伸[编辑]

中華民國教育部造字檔[编辑]

中華民國教育部有它本身的一套造字檔,主要給部門內使用,亦於教育部的網路字典使用。

中華民國行政院農委會常用中文外字集[编辑]

中華民國行政院農業委員會曾制訂一套有133個漢字的造字檔,其中有84個是魚字部漢字、7個是鳥字部漢字。

Big5+[编辑]

1997年中華民國行政院研究發展考核委員會成立專案委託中文數位化技術推廣基金會(中推會)辦理Big5+擴編計畫,使用了兩萬多碼位,納入了Unicode 1.1下所有漢字。由於編碼使用到的範圍超過原先Big5定義(Big5+使用了高位元組0x81-0xFE,低位元組0x40-0x7E、0x80-0xFE),無法安裝在Microsoft Windows上,現幾乎無人使用。

Big-5E[编辑]

為了使Microsoft Windows使用者可以使用造字檔,中華民國行政院研考會再度委託中推會推出一個補充字集Big-5E(與Big5+並不兼容),共收3954字。因為Big5+的編碼限制,再加上Unicode已漸成氣候,除了部分政府單位使用之外,Big-5E並沒有被廣泛的接受。Mac OS X 10.4及以上支援Big-5E。

Big5-2003[编辑]

鑑於Big5不是官方標準,中推會接受經濟部標準檢驗局委託,召集台灣國內業者、專家和學者編製一個Big5的對照表,並把它放到台灣官方的CNS 11643附錄裡,正式成為官方標準的一部分。

在Big5-2003之中,收錄了所有在1984年Big5編碼的所有字元,另外再加入微軟代碼頁950的歐元符號、倚天延伸字集的0xA3C0-0xA3E0、0xC6A1-0xC7F2、0xF9D6-0xF9FE的用字。Big5-2003沒有收錄行列輸入法特殊符號及0xC7F3-0xC875的俄語西里爾字母,理由是以CNS 11643沒有這些字符。除此之外,所有倚天延伸全部收錄。另外,它試圖減少Unicode東亞文字字寬有問題的「模糊」部份,它把某些符號的Unicode對應做了改變,導致代碼頁950並不完全是Big5-2003的子集合;另外,0xC6C0-0xC6D7對應到Unicode的康熙字典部首區而非漢字區。

相對於Big5-2003,最早沒有加上延伸之Big5則對稱為Big5-1984。

香港增補字符集[编辑]

香港增補字符集(Hong Kong Supplementary Character Set,簡稱HKSCS)是香港政府基於大五碼之上擴展的字符集標準,是現時香港的中文資訊交換內碼標準。香港增補字符集以前稱為《政府通用字庫》,本來只是香港政府內部統一使用的造字檔,有三千多字。但由於香港電腦業界不斷要求政府迎合本地需要,提出官方的字符集方案,以便與政府進行文件來往,於是香港政府便在1995年把這個內部使用的標準公開。到了1999年,此字集增加到四千多字,並改為現名。

此字符集由中文界面諮詢委員會管理,仍在不斷擴編之中。字符集主要包括香港地名人名用漢字粵語用字(包括粗言穢語在內,這是應警方法庭需要記錄口供的需要)、異體字、小部份簡體字平假名片假名俄語西里爾字母

發展[编辑]

由於各廠商及政府推出的Big5延伸,彼此互不兼容,造成亂碼問題。鑑於Unicode能正確地處理七萬多個漢字,近年的作業系統和應用程式(如蘋果電腦Mac OS X和以Cocoa API撰寫之程式、Microsoft Windows 2000及之後版本、Microsoft Office 2000及之後版本、Mozilla瀏覽器、Internet Explorer瀏覽器、Java語言等等),已改用Unicode編碼。可惜現時仍有一些舊的軟件(如Visual Basic 6、部分TelnetBBS軟件),未能支援Unicode編碼,故相信Big5缺字的問題仍會困擾用戶一段時間,直至所有程式都能改用Unicode為止。

輸入方法[编辑]

参考文献[编辑]

  1. ^ 普遍認為大五碼包含13,053字,但在計算0xA259-0xA261的九個度量衡單位用字(兙兛兞兝兡兣嗧瓩糎),再減去重收了兩次的「兀」(0xC94A)和「嗀」(0xDDFC)後,應為13,060字。

外部連結[编辑]