本页使用了标题或全文手工转换

香港增補字符集

维基百科,自由的百科全书
跳转至: 导航搜索

香港增補字符集Hong Kong Supplementary Character Set,簡稱HKSCS)是香港政府基於繁體中文電腦操作環境中最流行的大五碼(Big-5)之上擴展的字符集標準,是現時香港的中文資訊交換內碼標準。

字符集所收羅的字,主要包括香港的地名、人名用漢字、粵語漢字異體字,也有小部份簡體字。除此之外,此字符集亦把倚天中文系統收錄的日語平假名片假名俄語字母包括在內。此字符集由中文界面諮詢委員會管理,仍在不斷擴編之中。最新版本為HKSCS-2016,收錄5,033個字符。

負責機構[编辑]

負責整套字符集管理的為中文界面諮詢委員會(Chinese Language Interface Advisory Committee,CLIAC),簡稱「中諮會」。1999年5月由前資訊科技署成立,現隸屬「政府資訊科技總監辦公室」。中諮會轄下有兩個工作小組:「中文電腦用字工作小組」、「中文資訊科技工作小組」。中文電腦用字工作小組審核待增收字符,納入和編配碼位等工作;中文資訊科技工作小組解決技術問題及與國際標準ISO/IEC 10646(簡稱ISO 10646)接軌等工作。2015年6月1日,兩個小組合併爲「中文界面諮詢委員會工作小組」。各組成員來自學術界、語言學界、出版界和資訊科技界等。

歷史[编辑]

1980年代中期,台灣中文電腦的通行內碼為Big-5編碼。1990年代初期,香港電腦應用逐漸普及,而政府各部門也電腦化。和台灣一樣,香港也是使用繁體中文的地方,是故也採用了Big-5編碼。可是Big-5碼本身沒有收錄香港常用的廣東字、一些人名地名用字、一些學科用字,香港用戶經常面對缺字的問題。於是,香港政府各部門使用Big-5的外字區,自行補上這些字,並在政府內部使用。同時,香港業界也指出本地需要一套標準字符集來作電子文件來往,要求政府頒佈標準。到1995年,互聯網在香港起步,而政府也推出了自己的網站。個人電腦的中文系統雖然都用Big-5編碼,但都沒有政府用的外字,更可能用了自己的外字,使在瀏覽網頁時不能顯示正確的字符。香港政府於是把內部使用有3000多字的Big-5外字集標準造字檔公開,讓各界可以下載安裝這批字,使電腦能顯示正確的字符,並把這套字命名為《政府通用字庫》(Government Common Character Set,簡稱GCCS)。

到了1999年9月,此字集增加到4000多字,並改為現名。後來的人則稱這版本爲「HKSCS-1999」。自其公佈以後,香港增補字符集又經歷多次修訂,版本歷史[1]如下:

版本 收錄字數 公佈時間
GCCS 3,049 1995年
HKSCS-1999 4,702 1999年9月
HKSCS-2001 4,818 2001年12月
HKSCS-2004 4,941 2005年5月
HKSCS-2004+增收字符 4,969 2006年11月
HKSCS-2004+增收字符 5,000 2008年2月
HKSCS-2008 5,009 2009年12月
HKSCS-2016 5,033 2017年5月

除了增補字符,中諮會亦於2002年公佈了《香港電腦漢字楷體字形參考指引》和《香港電腦漢字宋體(印刷體)字形參考指引》供業界參考[2],指引內容爲以部件為基礎的字形參考寫法,希望能推動業界開發符合香港慣常書寫方式的漢字字型產品。

2016年,中諮會又公佈《香港電腦漢字參考字形[3],於字符層面上提供完整的電腦漢字參考寫法,具體地說明適用於香港的字形形狀,比較了香港參考字形與台灣業界習慣和台灣教育部寫法的異同。它並涵蓋HKSCS-2016和Big-5編碼字符集裏的所有漢字,以補充2002年兩份指引的不足之處。文件的研訂目標,是希望能清晰顯示ISO/IEC 10646國際編碼標準中H-列的字形,方便字型生產商開發有關產品。

字符分類[编辑]

在HKSCS-2004版本,漢字字符共4,500個,其中3,353字可在大型的字典(如《漢語大字典》)中查到,包括簡化字、異體字、日語漢字等。其餘在各大中文字典中查不到的字中,有粵語方言字(有些可在方言字典及學術著作中查到)、人名、公司名、地方名、變形部首、附形、訛字。有些字來自入境事務處、公司註冊處、稅務局、地政總署。

各類符號共441個,有漢字筆形、漢語拼音字母、國際音標符號、漢字元件、畫表符號、日本平假名、片假名等。

香港增補字符集在此版本起才有畫數、部首、粵音等資料給用戶參考,還說明方便檢索,而非作為規範標準(漢字的部首在不同的字典中,歸部也不盡相同)。

和GCCS的關係[编辑]

  • 註:因為各操作系統使用的字體不盡相同,因此下表列出的字符未必符合期望的結果。
已經與Unicode其他字符統一的字符
Unicode (PUA) 字符 Unicode (PUA) 字符 Unicode (PUA) 字符
E01F E026 E05B
E063 E073 E0A5
E0F3 E12E E134
E149 E166 E191
E1BA E1C9 E22C
E22D E230 E266
E286 E2A3 E2BC
E2EF E33A E340
E34F E35A E363
E37C E37F E3C5
E3D7 E3DC E417
E418 E44A E478
E485 E4C5 E4DA
E545 E589 E5D2
E5D3 E5D4 E5D5
E5EB E5F4 E6C6
E727 E7D3 E7FD
E884 E893 EB40
EB42 EB45 EB6E
EB86 EB94 EB9E
EBA9 EBBA EBC9
EBCF EBD2 EBDE
EC01 EC02 EC15
EC5B EC5E ECA6
ED28 ED6E ED7C
ED9E EDA4 EDE7
EDF4 EE3E EE52
EE8E EE98 EE9D
從大型字典中不能驗證而且無法與Unicode對應的字符
Unicode (PUA) 字符 Unicode (PUA) 字符 Unicode (PUA) 字符
ED2B ED43 ED73
ED8C EDC9 EDCD
EDDC EDE4 EDF6
EE02 EE06 EE0B
EE2F EE32 EE35
EE3D EE4D EE5E
EE66 EE68 EE8C
EE9A

如上表,第一部分有部分字符是重量單位,例如兙、兛、兝、兞等,在Big-5中是以廠商擴充字元形式出現,意即在不同廠商的中文系統裡(例如倚天、國喬、IBM大型系統)未必會包含該等字符,所以香港政府另行在Big-5造字區安放這些字,造成重複;另外,有些字符在收錄時只與Big-5正確字存在細微字形差異,例如「輋」上方一字從「山」而另一字從「屮」,「靜」左下方一字從「月」而另一字從「円」。研究這些字符可以從舊造字檔着手,因為現時在Windows通行的「細明體_HKSCS」字體已經被標準化了。

編碼[编辑]

和Big-5的關係[编辑]

香港增補字符集當初因為是補充Big-5的收字不足,使用其外字區而發展的,所以受制於Big-5的編碼架構,外字的總數最多只能到6217個(每區塊157字,有39區塊半)。除去已用碼位,剩下千餘個碼位,其中有部分會保留給用戶造字。

早期的倚天中文系統國喬中文系統等對造字缺乏管理,而又沒有文字專家的審定,因此當時造字很是混亂,有些甚至可能只是臨時使用的「錯字」(尋遍各大字典、專書也查不到的字,也作幽靈漢字);製作這些中文系統的廠商又對字形、字體缺乏認識,有些字會因為字體不同而字形稍有差別,分別編進了兩個碼位中。又有同一字有系統區及造字區兩個碼位,有些聯綿詞只收其一不收其二;這個問題帶到了政府通用字庫和香港增補字符集中,字集因要反向兼容而跳過了一些碼位。

Big-5原來的編碼,只有漢字、標點、注音符號等字符及少數圖形,後來經過台灣廠商的增收,多了7個「倚天字」(即碁、銹、裏、墻、恒、粧、嫺)及日文的假名,最後這批字符又被香港增補字符集收入。

香港增補字符集所使用的Big-5的外字區分幾個區段:

  • 「造字區一」(FA40—FEFE):早期的GCCS字符集已經填滿這一段。
  • 「造字區二」(C6A1—C8FE):倚天用了這段來放日文假名等符號。這些符號在HKSCS 1999年的版本被收納。
  • 「造字區三」(8140—A0FE):香港增補字符集把這段開頭的(8140—84FE)保留給用戶,新增的字符只用其餘的碼位。
  • 「廠商造字區」(F9D6—F9FE):這段開始的七個碼位用來存放裏、恒等「倚天字」,之後的碼位被微軟的繁體中文Windows用來存放製表符號。後來HKSCS 1999年版本將之全部收納。

可是一般提及HKSCS的文件,包括來自香港政府的,都沒有註明HKSCS以外的一般繁體字編碼(即是Big-5本身)使用哪個版本。Big-5在2003年前就只有一個版本,不會造成混淆,但HKSCS-2004的文件仍沒有指定Big-5部份是2003年之後還是之前的版本,雖然到目前為止並沒有任何系統使用Big5-2003。

和ISO 10646/Unicode的關係[编辑]

1995年的政府通用字庫本來是內部使用的,到1999年才成立中諮會專門去負責增收及審核字符的工作,並與ISO 10646接軌。中諮會的成員會把香港增補字符集交到ISO的表意文字小組中,盡量讓其所有字符納入國際標準。表意文字小組會定期開會審議漢字的收納等工作,成員是來自世界各地的專家。

香港字在Big5-HKSCS內的碼位,都能對應到ISO 10646中日韓漢字區段中的碼位,或Private Use Area(用戶造字區,簡稱PUA)內。隨著版本的更新,造字區的字會逐漸搬到中日韓漢字擴展區內。將所有已納入的HKSCS字符搬到正式中日韓漢字擴展區段(非PUA區段)的工作在2005年完成,對應於ISO 10646:2003的第一修訂版,相應的Unicode版本為Unicode 4.1。

不過,因為目前流傳極多使用舊版HKSCS的系統產生出來的文件,為了方便過渡,在HKSCS的定義中,在Unicode PUA所分配的字符位置會予以保留,不會給新加入而且未分配正式Unicode位置的字符使用。

字體提供[编辑]

最初的香港字,是由早期的台灣廠商(像倚天等)和用戶自行造字所得。因為大部份都不合標準和沒有流通,所以沒有沿用至今。後來,TrueType字型盛行,中文字的廠商都開始加入香港字,但因為是商業性質,沒有足夠的流通量。另外,在支援超大字庫的字體方面,因為HKSCS某些字和大陸GBK碼有衝突,廠商經常會因市場關係捨棄一些香港字。

香港政府的「數碼21」網頁(詳見下面的外部連結)有提供由華康授權的香港字參考宋體,但一來是使用條款苛刻而不可能廣泛使用,二來是沒有推廣,致使政府內部人員也不知道這套字體的存在。

目前由商業主導的情況漸有改變,近況如下:

開放源碼字體[编辑]

文鼎科技在1999年釋出了四套字體(繁簡明體和楷書)給自由軟件界,但當中沒有香港字。後來高盛華(Arne Götje)發起計劃將繁簡體合併,稱之為CJKUnifonts。當中,Akar、Zunix等人在2004年末另外發起開源香港常用中文字體計劃,將香港字加入CJKUnifonts之內,到了2005年9月1日完成將HKSCS 2004加入CJKUnifonts的工作。目前UMingUKai已收錄在各大Linux發行版

商業字體[编辑]

最早一套宣稱支援HKSCS的字體是華康「香港標準楷書」[4]及「香港標準宋體」[5],而最早一套宣稱支援HKSCS 2004的字體是華康「金蝶2006 H.K. Edition」[1],在2005年11月14日推出。後來文鼎、蒙納等字型公司亦陸續推出相應的字型產品。

增收字符[编辑]

「中諮會」會讓各界申請新字符,不過要經過審核批准,才會給字符編配碼位。而用戶自造的字,可視乎需要加入,特別是一些人名地名等會經過互聯網傳送的字。另外,這些增收的字符不一定能夠收錄在Unicode之內,例如一些能夠表示成Unicode複合字符的字或符號,便不會收錄。

另外因為現在餘下的Big-5兼容碼位不多(2005年9月為止只剩487個未用),中文界面諮詢委員會已經在2008年3月31日停止為字符提供Big-5碼位[2],並在之前盡量協助業界和一般用戶過渡至Unicode。

操作系統的支援[编辑]

香港增補字符集開始時只有Windows版本的Big-5編碼,後來與ISO 10646接軌後,才開始在LinuxMac OS等系統中使用。理論上因為ISO 10646已收納香港增補字符集,任何支援ISO 10646的系統都可使用香港字。但實際上,許多舊的程式內部是使用UCS-2(每個字佔2位元組)儲存字串,無法表示許多放在基本多文種平面(簡稱BMP)以外的所有香港字。只有使用UCS-4(每個字佔4位元組)作為內部儲存字串編碼的程式,才能夠完整地顯示所有香港字。

Windows[编辑]

顯示和處理字符[编辑]

根據Microsoft的網頁,在Windows Vista或以後的版本將不再支援HKSCS-2004的Big-5擴展編碼(通常稱為Big-5HKSCS),而只使用Unicode中的香港字支援。

至於HKSCS-2001,可以在微軟的網頁(請看下面的外部連結)中下載香港增補字符集;它支援Windows 98、NT、2000和XP。可是安裝該套件和其他軟件(例如Office)需要有一定的次序,而且它和別的Big-5外字集並不兼容,必須先瀏覽有關文件方可安裝。

輸入字符[编辑]

Windows XP中,內置的倉頡輸入法可輸入已包括在Unicode 1.1版本內的香港字;新倉頡輸入法則不能。

Linux[编辑]

顯示和處理字符[编辑]

自從glibc在2000年加入香港字(同時包括Big-5hkscs和unicode碼兩者的轉換表)的支援後,就幾乎沒有再更新過,其中的Big-5部份更是來自年代久遠的Big-5/Unicode轉換碼表,當中有不少錯誤之處,令一些文件和網頁無論使用Big-5還是Big-5 HKSCS轉換至Unicode都會出現錯誤。暫時未有任何更新。相反地,如果單是使用unicode作為系統編碼,處理香港字則沒有問題。

桌面環境方面,KDE 3.x桌面因為使用QT 3.x,而QT 3.x內部使用UCS-2儲存字符,因此KDE 3.x只能有限度地顯示少部份香港字。這情況期望在KDE 4.0解決。

GNOME沒有這方面的問題,只要是使用Unicode,在2004至2005年間就已經能夠顯示所有BMP以外的字符。

輸入字符[编辑]

截至2007年3月,支援香港字集的開源輸入法有:SCIMOXIM;不支援的有:IIIMFgcin。但有些輸入法並非輸出Unicode中真正編配給香港字的碼位,而是一些造字區的碼位,例如SCIM中的倉頡五代輸入法便是這樣。

Mac OS[编辑]

顯示和處理字符[编辑]

Mac OS X 10.0至10.2版本支援的版本為HKSCS-1999。10.3、10.4、10.5及最新之10.6支援HKSCS-2001;10.4有部份HKSCS-2004新增字元,但編碼對應Unicode私人使用區;10.5及10.6有HKSCS-2004全部新增字元,但只有Unicode(4.1版本)編碼。

輸入字符[编辑]

使用Mac OS X內置的中文輸入法即可,不屬Big-5字集的字在選字區旁會有一綠色感嘆號[!]提示。

使用地區[编辑]

除了香港使用香港字以外,現在台灣的中文電腦也有少部分使用它的(如處理常見但Big5未有收錄的人名用字,如「堃」和「喆」字;此外,台灣也有自己的一兩套外字集,如中國海字集)。而同樣使用粵語和繁體字的澳門也有使用這套字集,也許還有其他華語地區會使用。

澳門政府網站、澳廣視和很多澳門報紙網站已改用Unicode(UTF-8)編碼,因現在大部份系統已支援Unicode和內置相應字型,毋需額外安裝套件即可顯示澳門特有地名用字,如氹仔

評價[编辑]

香港增補字符集因為一直需要和Big-5碼兼容,所以可以說是一套先天不足的字集。它要處理前期許多遺留下來的問題,也有外字字數上限,致使香港特區政府打算在2007年至2008年放棄它的Big-5編碼。如果系統使用Unicode編碼,用它反而較好。當今的趨勢是使用Unicode,它有足夠的字符,幾乎可以滿足文字學家字典專家的用字要求。但因為兼容性的關係,要將整個系統由使用Big-5碼轉換至Unicode頗費時,因此還會有人暫時不願意轉換。

增收原則更改[编辑]

《香港增補字符集》自2008年3月31日起更改字符增收原則,新增的字符只會編配ISO 10646國際編碼標準內碼,不再編配大五碼內碼。政府資訊科技總監辦公室表示,全面採用ISO 10646國際編碼,可統一編碼標準,解決兼容問題。ISO 10646國際編碼標準涵蓋各種主要語文的字符,包括繁體及簡體中文字,提供統一的字符編碼標準,方便世界各地的電腦用戶。《香港增補字符集》3月31日起更改字符增收原則,在此之前獲編配的字符,則不受影響。政府1999年公佈《香港增補字符集》,由中文界面諮詢委員會負責管理,收納適用於香港的中文電腦用字,以解決電子通訊出現亂碼或字符不能正確地顯示等問題。

參看[编辑]

注釋[编辑]

  1. ^ 有關《香港增補字符集》的問題及解答
  2. ^ 一套以部件為基礎的字形參考指引
  3. ^ 香港電腦漢字參考字形
  4. ^ http://www.rnb.com.hk/dynacw/hkstdfont/hkstamdardB-1.htm
  5. ^ http://www.rnb.com.hk/dynacw/hkstdfont/standardsong.htm

外部連結[编辑]

字符和編碼[编辑]

編碼表[编辑]

字體[编辑]

參考書籍、文章[编辑]