中日韓越統一表意文字
中日韓越統一表意文字(英语:CJKV Unified Ideographs),舊稱中日韓統一表意文字(英语:CJK Unified Ideographs),也稱統一漢字(英语:Unihan),目的是要把分別來自中文、日文、韓文、越文、壮文中,對於相同起源、本義相同、形狀一樣或稍異的表意文字主要為汉字,但也有仿漢字如:方塊壯字、日文漢字(かんじ / kanji)、韓文漢字(한자 / hanja)、越南的喃字(Chữ Nôm)與越文漢字[漢字/Hán Tự,在越南也稱作儒字(𡨸儒/Chữ Nho)],應賦予其在ISO 10646及統一碼標準中有相同編碼。此計劃原本只包含中文、日文及韓文中所使用的漢字,是以舊稱中日韓統一表意文字(CJK)。後來,此計劃加入了越文的喃字,所以合稱中日韓越統一表意文字(CJKV)。
目录 |
歷史[编辑]
1978 年,日本基於ISO 2022,制訂了全世界最早的漢字編碼 JIS C 6226。1980 年代,中國大陸、台灣、韓國則各自制訂了自己的規範。這些規範彼此之關並無關聯。若要在一份文件中同時使用,則要以脫序字符的方式來交換。
1980 年,日本的國立國會圖書館的高橋德太郎以圖書學的觀點指出,一個統一的東亞漢字編碼系統是有必要的。同年,台灣制定了三位元組的中文資訊交換碼。偶然的是,這是第一個期望可以一致處理中國大陸、日本、台灣漢字的編碼。之後,美國的國會圖書館採用了此規格,並另外命名為東亞編碼字符(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。
1984年,ISO 的文字編碼委員會(ISO/TC 97/SC2)決議制訂出一套編碼規格(ISO 10646),是以交換文字集的方式來統一處理世界的文字。並成立了工作小組(ISO/TC 97/SC 2/ WG 2)。這個編碼一開始的構想是採用16位元,而對於日本及中國等國的漢字編碼則原封不動地加入。但若如此,中國當時所制訂的編碼都無法加入,因而反對。並於1989年,提出了各國的漢字統合集合(Han Character Collection,HCC)的構想。
1990年完成了 ISO 10646 的初版草案(DIS 10646)。漢字使用 32 位元來表示。並將各國的漢字編碼原封不動地加入。但中國認為,若各國各自為漢字編碼,將不利於統一處理漢字,因而反對。為了日後關於漢字編碼的討論及方針能順利進行,並呼籲 WG 2 特別設置了中日韓聯合研究小組(CJK-JRG,Joint Research Group,為表意文字小組的前身),以持續討論。
另一方面,1987年,全錄的 Joe Becker 和 Lee Collins 開發了統合處理全世界所有文字的統一碼。1989年發表了統一碼概要。基本為 16 位元。於是,中、日、韓文字統合了。基本方針為以 16 位元處理所有文字。 1990年,完成了基於此方針的最終草案。隔年1991年1月,大致同意此方案的企業成立了統一碼聯盟。中、日、韓中類似的漢字使用約二萬多個字。為了未來擴充,保留了三萬個漢字以供其它用途。
1991年,各國希望能以一致的方式處理文字,如統一碼這般,因而否決了 ISO/IEC 10646 的初版草案。基於中國與統一碼聯盟的提議,ISO 10646 和統一碼成立了中日韓聯合研究小組。中日韓聯合研究小組將基於各國的漢字編碼,獨自訂定規範、制作 ISO 10646 和統一碼的統一漢字編碼。年尾,完成了Unified Repertoire and Ordering (URO) 。
1992年,URO 加入 ISO 10646 的第二版。但是,發現了一些缺失,之後進行了修正。
1993年5月,正式制訂了最初的中日韓統一表意文字,位於 U+4E00–U+9FFF 這個區域,共 20,902 個字。一個月後,制訂了統一碼 1.1 。
1999年,依據 ISO/IEC 10646 的第 17 個修正案(Amendment 17)訂定了擴充區 A ,於 U+3400–U+4DFF 加入了 6,582 個字。
2001年,依據 ISO/IEC 10646-2,新增了擴充區 B ,有 42,711 字。位於 U+20000–U+2A6FF。但因在短時間內增加了大量的漢字,導致產生了許多重複的字形。
2005年,依據 ISO/IEC 10646:2003 的第 1 個修正案(Amendment 1),基本多文種平面增加了 U+9FA6 到 U+9FBB 等 22 個漢字。
2009年,統一碼 5.2 擴充區 C 增加了 U+2A700-U+2B734 和 U+9FC4~U+9FCB 。
2010年,統一碼 6.0 擴充區 D 增加了 U+2B740-U+2B81F 。
2012年, 1字 增加 U+9FCC 。
版本[编辑]
| ISO 10646 版本 | Unicode 版本 | 新增 | 置放平面 | 字數 | 累計字數 |
|---|---|---|---|---|---|
| 1993 | 1.0 | 中日韓統一表意文字 | 基本多文種平面(BMP,Basic Multilingual Plane) | 20,902 | 20,914 |
| 位於「相容表意文字區」中但實則獨一的漢字(U+FA0E(﨎)、U+FA0F(﨏)、U+FA11(﨑)、U+FA13(﨓)、U+FA14(﨔)、U+FA1F(﨟)、U+FA21(﨡)、U+FA23(﨣)、U+FA24(﨤)、U+FA27(﨧)、U+FA28(﨨)、U+FA29(﨩)[1] | 基本多文種平面 | 12 | |||
| 2000 | 3.0 | 中日韓統一表意文字擴展A區 | 基本多文種平面 | 6,582 | 27,496 |
| 2001 | 3.1 | 中日韓統一表意文字擴展B區 | 第二辅助平面(SIP,Supplementary Ideographic Plane) | 42,711 | 70,207 |
| 2003第一修訂版 | 4.1 | HKSCS-2004中未加入ISO 10646的漢字(U+9FA6-U+9FB3龦龧龨龩龪龫龬龭龮龯龰龱龲龳)和GB 18030-2000中未加入ISO 10646的印刷業常用的偏旁和字形部件(U+9FB4-U+9FBB龴龵龶龷龸龹龺龻) | 基本多文種平面 | 22 | 70,229 |
| 2003第四修訂版 | 5.1 | 7個日語漢字(U+9FBC-U+9FC2龼龽龾龿鿀鿁鿂),U+4039䀹 拆分為 U+4039䀹 和 U+9FC3鿃 | 基本多文種平面 | 8 | 70,237 |
| 2003第五修訂版 | 5.2 | 中日韓統一表意文字擴展C區 | 第二辅助平面 | 4,149 | 74,394 |
| 2003第六修訂版 | 2個日語用漢字(ARIB #47, #95,U+9FC4鿄-U+9FC5鿅)、1個新增漢字(ARIB #93,U+9FC6鿆)、在 HKSCS-2004 推出後新增的 5個香港漢字(U+9FC7-U+9FCB鿇鿈鿉鿊鿋) | 基本多文種平面 | 8 | ||
| 2010 | 6.0 | 中日韓統一表意文字擴展D區(2B740-2B81F) | 第二輔助平面 | 222 | 74,616 |
| 2012 | 6.1 | 1個漢字(U+9FCC鿌) | 基本多文種平面 | 1 | 74,617 |
字源[编辑]
最初期統一漢字[编辑]
最初期的統一漢字共20,941字,其範圍為:0x4E00—0x9FCC。其字源來自以下字集:
| 類別 | 來源代碼 | 名稱 | 字數 |
|---|---|---|---|
| 中国大陆 国标源(G) |
G0 | GB 2312-80 | 6,763 |
| G1 | GB 12345-90 | 2,352字(含58個香港字和92個吏讀字,不包括和GB 2312重複的字) | |
| G3 | GB 7589-87 繁體版本 | 7,237 | |
| G5 | GB 7590-87 繁體版本 | 7,039 | |
| G7 | 現代漢語通用字表 | 42字(G0, 1, 3, 5, 8未包括的字) | |
| G8 | GB 8565.2-89 | 290字(G0, 1, 3, 5未包括的字) | |
| 臺灣源(T) | T1 | CNS 11643-1986 第一字面 | 5,401+9個計量用漢字 |
| T2 | CNS 11643-1986 第二字面 | 7,650字 | |
| TE | CNS 11643-1986 第十四字面 | 6,319+239個中文資訊交換碼特字+10個全錄字符集(Xerox Character Code Standard,XCCS) 特字 | |
| 日本源(J) | J0 | JIS X 0208-90 | 6,335+非漢字1字(仝)[2] |
| J1 | JIS X 0212-90 | 5,801字 | |
| 韓國源(K) | K0 | KS C 5601-87 | 4,888字(含268個重見字) |
| K1 | KS C 5657-91 | 2,856字 | |
| 委員會源(U) | KS C 5601-1987(當中重複的漢字) | ||
| 美國國會圖書館之東亞字元編碼(East Asia Character Code,簡稱 EACC;標準號 ANSI Z39.64-1989)[2] | |||
| 大五碼 | |||
| 中文資訊交換碼第一字面 | |||
| GB 12052-89(漢字部分) | |||
| JEF(富士通標準) | |||
| 中國大陸電報碼 | |||
| 台灣電報碼(CCDC) | |||
| 全錄中文編碼 | |||
| 人名用漢字准用字體表(人名用漢字許容字体表;日本) | |||
| IBM 選取的日本和韓國表意文字 |
其中,統一碼技術委員會源(U源)是指,並非由表意文字小組所遞交的參考字集,而是委員會額外遞交作參考的字集標準。並且此來源的字集不適用字源分離原則(見稍後)。
擴展A區[编辑]
擴展A區包含有6,582個漢字,位置在 U+3400—U+4DB5。這6千多個漢字分別從以下字典或字集中取得:
| 類別 | 來源代碼 | 名稱 | 字數 |
|---|---|---|---|
| 中国大陆 国标源(G) |
G_KX | 《康熙字典》 | 5357字(獨有1892字) |
| G_HZ | 《漢語大字典》 | 5888字(獨有339字) | |
| G3 | GB 7589-87 繁体版本 | 2391字 | |
| G5 | GB 7590-87 繁体版本 | 1226字 | |
| G7 | 現代漢語通用字表 | 120字 | |
| GS | 新加坡漢字 | 226字 | |
| 臺灣源(T) | T3 | CNS 11643-1992 第三字面(原本為CNS 11643-1986第十四字面)新加入字符 | |
| T4 | CNS 11643-1992 第四字面 | ||
| T5 | CNS 11643-1992 第五字面 | ||
| T6 | CNS 11643-1992 第六字面 | ||
| T7 | CNS 11643-1992 第七字面 | ||
| TF | CNS 11643-1992 第十五字面 | ||
| 日本源(J) | JA | 日本資訊科技零售商統一當代表意文字(1993) | |
| 韓國源(K) | K2 | PKS C 5700-1:1994 | |
| K3 | PKS C 5700-2:1994 | ||
| 越南源(V) | V0 | TCVN 5773:1993 | |
| V1 | TCVN 6056:1995 |
擴展B區[编辑]
擴展B區包含有42,711個漢字,位置在 U+20000—U+2A6D6。根據 IRG N777號文件,這四萬多個漢字分別從以下字典或字集中取得:
| 類別 | 來源代碼 | 名稱 | 字數 |
|---|---|---|---|
| 中国大陆 国标源(G) |
G_KX | 《康熙字典》 | 18,486個未收錄漢字(包括一個在補遺篇中出現的漢字) |
| G_HZ | 《漢語大字典》 | 28,914個未收錄漢字 | |
| G_CY | 《辭源》 | 66個未收錄漢字 | |
| G_CH | 《辭海》 | 247個未收錄漢字 | |
| G_HC | 《漢語大詞典》 | 553 字 | |
| G_BK | 《中國大百科全書》 | 86個未收錄漢字 | |
| G_FZ | 北大方正排版系统 | 65個未收錄漢字 | |
| G_4K | 《四庫全書》 | 522個未收錄漢字 | |
| 香港源(H) | H | 香港增補字符集(HKSCS) | 1,081個未收錄漢字 |
| 臺灣源(T) | T4 | CNS 11643-1992 第四字面 | |
| T5 | CNS 11643-1992 第五字面 | ||
| T6 | CNS 11643-1992 第六字面 | ||
| T7 | CNS 11643-1992 第七字面 | ||
| TF | CNS 11643-1992 第十五字面 | ||
| 日本源(J) | J3 | JIS X 0213:2000, level 3 | |
| J3A | JIS X 0213:2004, level 3 | ||
| J4 | JIS X 0213:2000, level 4 | ||
| 韓國源(K) | K4 | PKS 5700-3:1998 | 166個未收錄漢字 |
| 朝鮮源(KP) | KP0 | KPS 9566-97 | |
| KP1 | KPS 10721-2000 | ||
| 越南源(V) | V2 | VHN 01:1998 | |
| V3 | VHN 02:1998 |
這些漢字中重複的漢字有不少,所以經過整理之後,實際總數只有42,711個漢字。
另外,在 U+2F800—U+2FA1D 的位置,放了542個來自台灣的兼容漢字。
Unicode 4.1漢字[编辑]
為使 Unicode 向下兼容 GB 18030 和香港增補字符集(HKSCS)的所有漢字,而擴展C區又遲遲未能出籠,在 Unicode 4.1 版中引進了14個香港增補字符集的用字和8個 GB 18030 用字。該22字被編於 U+9FA6—U+9FBB 的位置。
另外,在 U+FA70—U+FAD9 的位置,放了106個來自北韓的兼容漢字。
Unicode 5.1漢字[编辑]
在2008年4月推出的 Unicode 5.1 版本,收錄7個由日本 Adobe 公司遞交的日語漢字(U+9FBC-U+9FC2)[3],和目字旁加㚒(大字加兩個入字,就如陝西省的陝字換上目字旁)的字 U+9FC3。本來 Unicode 3.0 收錄了目字旁加夾(大字加兩個人字)字的「䀹」(U+4039),目字旁加㚒字的字,與「䀹」無論在意義和發音均不相同,故魏安(Andrew West)和井作恆(John H. Jenkins)申請追加此字[4]。
擴展C區[编辑]
於2009年10月發布的Unicode 5.2涵蓋了擴展C區,共收錄4,149個漢字,包括來自中國大陸、澳門、台灣、日本、越南等尚未被編碼的漢字。位置在 U+2A700—U+2B734。這四千多個漢字分別從以下字典或字集中取得:
| 類別 | 來源代碼 | 名稱 | 字數 |
|---|---|---|---|
| 中国大陆 国标源(G) |
G_BK | 《中國大百科全書》 | 74字 |
| G_FZ | 北京大学方正排版系统 | 1個未收錄漢字 | |
| G_HZ | 《漢語大字典》 | 1個未收錄漢字 | |
| G_HC | 《漢語大詞典》 | 14個未收錄漢字 | |
| G_GH | 《古代漢語詞典》 | 50字 | |
| G_GJZ | 商務印書館用字 | 61字 | |
| G_XC | 《現代漢語詞典》 | 25字 | |
| G_CH | 《辭海》 | 264個未收錄漢字 | |
| G_KX | 《康熙字典》及補遺 | 6個未收錄漢字 | |
| G_CYY | 中國測繪科學研究院用字 | 55字 | |
| G_ZFY | 《漢語方言大辭典》 | 202字 | |
| G_ZJW | 《殷周金文集成引得》 | 366字 | |
| 臺灣源(T) | TC | CNS 11643-1992 第12字面 | 634字 |
| TD | CNS 11643-1992 第13字面 | 767字 | |
| TE | CNS 11643-1992 第14字面 | 350字 | |
| 澳門源 | MAC | 澳門資訊系統字集(Colectânea dos Caracteres Chineses dos Sistemas Informáticos de Macau) | 16字 |
| 日本源(J) | JK | 日本國字集(Japanese KOKUJI Collection) | 367字 |
| 韓國源(K) | K5 | 韓國表意文字小組漢字集第五版(2001)(Korean IRG Hanja Character Set 5th Edition: 2001) | 404字(當中主要包含古代字例) |
| 朝鮮源(KP) | KP1 | KPS 10721:2003 | 5357字(獨有1892字) |
| 越南源(V) | V4 | 《喃字詞典》(Từ điển chữ Nôm)[阮光紅(Nguyễn Quang Hồng), 2006] | |
| 《岱喃字字典》(Từ điển chữ Nôm Tày)(Hoàng Triều Ân,2006) | |||
| 《沔南喃字榜查》(Bảng tra chữ Nôm miền Nam)(Vũ Văn Kính,1994) | |||
| 委員會源(U) | ABC Chinese-English Dictionary(德范克,John DeFrancis等,第二版 (1998) ,火奴魯魯,夏威夷大學出版社) | ||
| 耶穌基督後期聖徒教會香港分會用字 | |||
| Mathews' Chinese-English Dictionary(Robert H. Mathews (1975),劍橋,哈佛大學出版社) | |||
| 宋本《廣韻》 | |||
| 《中國鳥類系統檢索》(鄭作新等(2000),北京,科學出版社) | |||
| 段玉裁《說文解字注》 |
擴展D區[编辑]
擴充區D包含的都是所謂的「急用漢字」,合共222個新漢字,於2010年下旬發布的Unicode 6.0中,編碼範圍為 U+2B740 至 U+2B81F(實際有字元為 U+2B740 至 U+2B81D)。
擴展D區原本計劃放置擴展C區未收錄的16,000多個漢字,但在2007年5月,台灣撤消了6,545個第二部分字集內私用漢字,不再使用字,原因是那些人名用字的擁有人或已去世或已移居外地[5],此後擴展D區縮減到大約10,000字左右。[6],由於各種阻礙,協議先把數量較少,又急切要收錄的漢字提交出來,就是「急用漢字」,以便和統一碼6.0.0版一起發表。提出的急用漢字只有二百二十二字(本來有二百二十三字,但中國大陸撤回其中一字)。現在文字小組把第二部分字集延後到擴充E區。
| 類別 | 來源代碼 | 名稱 | 字數 |
|---|---|---|---|
| 中国大陆 国标源(G) |
G_CH | 《辭海》 | 1字 |
| G_IDC | 公安部身份證系統人名和地名用字 | 31字 | |
| G_XC | 《现代汉语词典》 | 4字 | |
| G_ZH | 《中华字海》 | 39字 | |
| 臺灣源(T) | TB | CNS 11643-2007 第11平面24字(教育部台语用字) | 24字 |
| 日本源(J) | JH | 通用電子情報交換環境整備計劃(汎用電子情報交換環境整備プログラム,日本經濟產業省提出的人名和地名用字) | 108字 |
| 委員會源(U) | Adobe-Japan1-5 和 Adobe-CNS1-5 字體裏的異體字 | 15字 |
擴展E區[编辑]
擴展E區現正處于研究階段,計劃放置于編碼範圍 U+2B820-U+2F7FF 中。
擴展E區將包含1,277個新越南漢字[7]、被台灣的閩南語和客家話所使用的24個台灣漢字[8] 以及2個中華人民共和國地名用字。[9][10]
擴展F區[编辑]
擴展F區現正處于研究階段。
- 中國大陸計劃提交的字元有以下幾個來源。㈠方塊壯字, 1000多個字元,㈡另外在古書上,中國國家圖書館發現4900多個字元未編碼,和㈢其他來源,預計有5000多個字元為CJK_F的候選[11]。
- 臺灣計畫提交不超過4,000的字元為CJK_F,主要有三個來源。㈠有83個字元的CNS 11646:2007移動而來,㈡其於大部分將來自教育部異體字線上詞典。㈢此外,可能有少量的字元來自政府的其他部門[12]。
- U-源方面,美國國家機構和UTC計劃提交不超過100個新的字元為擴展F。大多數情況下,本文件將包括字元分類在以下三個方面:㈠U-源的字元,在UTR#45數據文件被標記為「N」(為將來的擴展計劃提交)。㈡U-源在UTR#45數據文件被標記為「E」(提交為CJKE),但因故被移去。㈢新的U-源的字元[13]。
- 日本方面,預計提交3000餘個字符[14]。
- 南韓方面,預計提交100+1000?餘個字符[15]。
- 專家的貢獻(SAT項目),預計提交6000餘個字符[16]。
字源分離原則[编辑]
字源分離原則(Source Separation Rule)是整理中日韓統一表意文字的基礎。
由於CJK各地字型多有微妙的差異,如「戶」字的第一筆,台灣作撇「戶」、香港、中國大陸作點「户」、日本作橫「戸」,這種程度的差異,理想上是整併為一個字為佳。然而,從之前各種受挫之文字整併計劃的經驗得知,整合字集與現行通用字集(Big5或國標碼)等無法一一對應,是推行整合字集的最大阻礙。
例如,日本的JIS標準同時收錄了「剣」字與「劍」字,原本JIS文件裡這兩個字可以並存,但採用整合字集後反而變成同一個字,會造成使用上的困擾。而且,如果將多個不同地區字形合併會影響閱讀者,令使用者不習慣並非以往所見字形;更有可能引致閱讀者因習慣而書寫不屬於自己地區的字形(或地區性的異體字)、學習錯誤的字形。於是,字源分離原則因而誕生。
而在不同地區而有不同寫法的部首,如「⻌(中)、⻍(港台舊字體)、辶(港台)」、「⺾(新字體)、卝䒑(舊字體)」、「⺥(中)、爫(港台)」等就會交由字體處理,例如使用依中國大陸漢字標準《印刷通用漢字字形表》的字體下(如中易宋體、微軟雅黑體)便會出現「⻌、⺥」;使用港台字體標準字體下(如微軟正黑體,但非舊版細明體[17])就會出現「辶、爫」等字形。大大解決了因地區而異之部首寫法。
字源分離原則是指,在上述所列出之各種字源裡,若有任何字集同時收了兩種以上的文字字形,則在Unicode中日韓統一表意文字中,也同時收錄這些字。這樣一來,現行的各種原有字集與Unicode漢字可以一一對應。
由於Unicode中日韓統一表意文字的主要訴求,就是能大幅減少Unicode收錄漢字字數,同時尊重各地的習慣字形。但字源分離原則則破壞了「只對字,而不對字形」編碼之原則,亦遭受不少批評。
統漢字資料庫[编辑]
統漢字資料庫是統一碼聯盟所維護的資料庫文件。其為統漢字的每個漢字做了說明,內容包含:
其資料庫透過以下幾種方式發佈:
批評[编辑]
合併同義字,雖有助減少收錄字數,但在研究學術時,如古籍、歷史及文字研究等,部份文獻確要將字形不同之字同時並列,已合拼各字,變得各有各意思。學者若用Unicode,遇此情況,就要用同碼不同電腦字形,甚至要自行造字,或捨Unicode而用其他編碼。一來尋轉電腦字形不便,二來有損Unicode記錄每一個字之用意,三來不能以純文本交換。另外亦不能以Unicode準確記錄文獻,原本不同字形之字合拼,原有有別義,轉Unicode而訛誤,不利於文本存於電腦。
另外,同一部件,有分有合,原則不一致。如眞真分而直直合,令人混淆。
不同字形之字合拼後,若檢索方法以字形爲本,會混亂而難以檢索。例如筆劃檢字,艸部之草花頭,中國大陸、日本計三劃,而傳統中文四劃,留有艸形則六劃。Unicode同一字碼,源於字形不同,就有幾種筆劃,檢索混亂。即使檢出字,筆劃與顯示之字亦不符。
文化上,東亞各國用字形有別,用電腦字形亦有別,在日本難以用傳統字之電腦字體,在港臺難以用日本電腦字體,故合併後,文本要顯示文化差異之字形,則大有困難。
已統一漢字[编辑]
原則上ISO 10646只對字(Character),而非字形(Glyph)編碼。同一字各地可使用自己的標準寫法。下例中使用HTML標示同一編碼的字在不同地區中的寫法(但只是读者的浏览器所提供的字型,未必代表該地區的標準寫法)。
例子:
| Unicode | 中文 | 日文 | 韓文 | ||
|---|---|---|---|---|---|
| 中國大陆 | 台灣 | 香港 | |||
| U+6E2F | 港 | 港 | 港 | 港 | 港 |
| U+6F22 | 漢 | 漢 | 漢 | 漢 | 漢 |
| U+76F4 | 直 | 直 | 直 | 直 | 直 |
| U+7A97 | 窗 | 窗 | 窗 | 窗 | 窗 |
| U+89D2 | 角 | 角 | 角 | 角 | 角 |
| U+8D77 | 起 | 起 | 起 | 起 | 起 |
| U+9AA8 | 骨 | 骨 | 骨 | 骨 | 骨 |
註:不是所有網頁瀏覽器均可分辨全部 HTML 的語言代碼(Language Code)並使用不同字形。如非某一地区的使用者看到的字形和当地通用的字形一樣,表示该用户的瀏覽器不能分辨此標籤,或設定兩者以同一種字形顯示。具体情况请参考 Test results: Automatic font assignment for CJK text。
未統一漢字[编辑]
有些字只是同一字在不同地區的寫法,理應統一,但因為字源分離原則而只好分開編碼。值得注意的是字源分離原則由“Unicode聯盟決定把不正統的編入位於基本多文種平面的『相容表意文字區』(Compatibility Ideographs)”時起廢棄,原因是CNS中有太多字形非常接近,按 Unicode 標準應該統一的字。這些字只有正統的會編入正式字集(包括擴展A、B、C區)中,不正統的編入位於「第二輔助平面」的「相容表意文字補充區」(Compatibility Ideographs Supplement)中。
例子:
| Unicode | 字 | Unicode | 字 | Unicode | 字 |
|---|---|---|---|---|---|
| U+4E1F | 丟 | U+4E22 | 丢 | ||
| U+514C | 兌 | U+5151 | 兑 | ||
| U+518A | 冊 | U+518C | 册 | ||
| U+5433 | 吳 | U+5434 | 吴 | U+5449 | 呉 |
| U+543F | 吿 | U+544A | 告 | ||
| U+5965 | 奥 | U+5967 | 奧 | ||
| U+5968 | 奨 | U+596C | 奬 | U+734E | 獎 |
| U+5986 | 妆 | U+599D | 妝 | ||
| U+59CD | 姍 | U+59D7 | 姗 | ||
| U+5C13 | 尓 | U+5C14 | 尔 | ||
| U+5F54 | 彔 | U+5F55 | 录 | ||
| U+6236 | 戶 | U+6237 | 户 | U+6238 | 戸 |
| U+63FA | 揺 | U+6416 | 搖 | U+6447 | 摇 |
| U+66A8 | 暨 | U+66C1 | 曁 | ||
| U+69D8 | 様 | U+6A23 | 樣 | ||
| U+6A2A | 横 | U+6A6B | 橫 | ||
| U+6B65 | 步 | U+6B69 | 歩 | ||
| U+7155 | 煕 | U+7199 | 熙 | ||
| U+7D55 | 絕 | U+7D76 | 絶 | ||
| U+7DA0 | 綠 | U+7DD1 | 緑 | ||
| U+9AEA | 髪 | U+9AEE | 髮 | ||
| U+9EAA | 麪 | U+9EAB | 麫 | ||
| U+9EBC | 麼 | U+9EBD | 麽 | ||
| U+9EC3 | 黃 | U+9EC4 | 黄 | ||
| U+9ED1 | 黑 | U+9ED2 | 黒 |
自上表發表後,WG2 亦調查過其他漢字[20],認為以下屬於基本多文種平面的漢字,亦可考慮收編到 ISO 10646 Annex S3:
| Unicode | 字 | Unicode | 字 |
|---|---|---|---|
| U+5022 | 倢 | U+507C | 偼 |
| U+52C0 | 勀 | U+52CA | 勊 |
| U+5637 | 嘷 | U+5651 | 噑 |
| U+5EFB | 廻 | U+5EFD | 廽 |
| U+6323 | 挣 | U+6399 | 掙 |
| U+66AD | 暭 | U+66CD | 曍 |
| U+6808 | 栈 | U+685F | 桟 |
| U+6D85 | 涅 | U+6E7C | 湼 |
| U+6F40 | 潀 | U+6F68 | 潨 |
| U+6FF2 | 濲 | U+7014 | 瀔 |
| U+734B | 獋 | U+7354 | 獔 |
| U+84D8 | 蓘 | U+8509 | 蔉 |
| U+86D4 | 蛔 | U+8716 | 蜖 |
| U+8B86 | 讆 | U+8B8F | 讏 |
| U+8FF4 | 迴 | U+9025 | 逥 |
| U+91F0 | 釰 | U+91FC | 釼 |
擴展B區的問題[编辑]
擴展B區使用了輔助平面來擺放漢字,以致不少文書處理軟件都不能支援。例如,Microsoft Office 2000 或之前的版本,即使電腦擁有擴展B區漢字字體,也只會顯示兩個方格。
另外,因擴展B區在整理上有缺陷,收錄了以下5個本來應該與其他漢字統一的字[21]:
- U+20457 = U+34A8
- U+2420E = U+3DB7
- U+27144 = U+8641
- U+23515 = U+204F2
- U+249E9 = U+249BC
而在 WG2 N1155[20] 文件中,亦列出了152對可考慮統一的漢字。
注释[编辑]
- ^ 這個十二個字放到兼容區不是因為和其他字同形或為異體,而是因為它們只收錄在廠商用字中,但未有收錄在官方標準(C-、T-、J-、K-Source)中。他們有獨立的形、音、義,即「獨一」(Unique),Unicode 6.1, 第 410-411 頁 [1]
- ^ http://fonts.jp/hanazono/
- ^ http://std.dkuug.dk/JTC1/SC2/WG2/docs/n3210.pdf
- ^ http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3196.pdf
- ^ IRG N 1306: Request to Withdraw 6545 T-Source from CJK D candidate
- ^ http://www.cse.cuhk.edu.hk/~irg/irg/irg28/IRGN1319A1_MoveToCJK_D.pdf
- ^ http://www.cse.cuhk.edu.hk/~irg/irg/irg28/IRGN1279_CJK_DVietNam.pdf
- ^ http://www.cse.cuhk.edu.hk/~irg/irg/irg28/IRGN1305_CJKD_24Char_TCA.pdf
- ^ IRGN1324 Submitted To D_China (PDF)
- ^ CJK Unified Ideographs: To Infinity and Beyond
- ^ IRG N1874「Information of the potential China’s submission to CJK_F」 ISO/IEC JTC1/SC2/WG2/IRG N1874 Date: 2012-06-19
- ^ IRGN 1873 「On the CJK-F submission form TCA」 ISO/IEC JTC1/SC2/IRG N1873 Date: 2012-06-20
- ^ IRG N1872「US/Unicode Extension F Submission Plan」 ISO/IEC JTC1/SC2/WG2/IRG N1872 L2/12-212
- ^ IRGN1813
- ^ IRGN1855
- ^ IRGN1858
- ^ 舊版細明體指 Windows XP 或以前版本之新細明體及細明體。
- ^ 統漢字資料庫. 統一碼聯盟. [2009-05-04].
- ^ libUnihan主頁. libUnihan. [2009-05-04].
- ^ 20.0 20.1 http://www.cse.cuhk.edu.hk/~irg/irg/irg25/IRGN1155_Possible_Duplicates.pdf
- ^ http://std.dkuug.dk/JTC1/SC2/wg2/docs/n2644.pdf
參看[编辑]
外部連結[编辑]
- 統一碼裏中日韓表意文字和相關字符淺說
- 統一碼
- ISO表意文字工作組
- CJK-CODE
- UTF-8 and Unicode FAQ for Unix/Linux
- 中華民國教育部異體字字典附錄-中日韓共用漢字表
| Unicode 相關條目 |
|---|
| Unicode字符列表 | Unicode聯盟 | Unicode技術委員會 | ISO 10646(通用字符集) | UTF-7 | UTF-8 | UTF-16 / UCS-2 | UTF-32 / UCS-4 |
| Unicode字符平面映射 | 中日韓越統一表意文字 | CJKV | 表意文字小組(IRG) | IICore | 完整Unicode編碼表 |
|
|||||||||||||||||||||||||||||||||||||||||||||||