中日韓越統一表意文字
中日韓統一表意文字(英语:CJK Unified Ideographs),也稱中日韓越統一表意文字(英语:CJKV Unified Ideographs)、統漢字(英语:Unihan),目的是要把分別來自中文、日文、韓文、越文、壮文中,本質相同、形狀一樣或稍異的表意文字(主要為汉字,但也有仿漢字如方塊壯字、日本國字、韓國獨有漢字、越南的喃字)於ISO 10646及Unicode標準內賦予相同編碼。
越南文後來加入此計劃,所以亦有 CJKV(中日韓越統一表意文字)的稱呼。Unicode亦開始收錄越漢字——喃字。
目录 |
[编辑] 版本
| ISO 10646 版本 | Unicode 版本 | 新增 | 置放平面 | 字數 | 累計字數 |
|---|---|---|---|---|---|
| 1993 | 1.0 | 中日韓統一表意文字 | 基本多文種平面(BMP,Basic Multilingual Plane) | 20,902 | 20,914 |
| 位於「相容表意文字區」中但實則獨一的漢字(U+FA0E(﨎)、U+FA0F(﨏)、U+FA11(﨑)、U+FA13(﨓)、U+FA14(﨔)、U+FA1F(﨟)、U+FA21(﨡)、U+FA23(﨣)、U+FA24(﨤)、U+FA27(﨧)、U+FA28(﨨)、U+FA29(﨩)[1] | 基本多文種平面 | 12 | |||
| 2000 | 3.0 | 中日韓統一表意文字擴展A區 | 基本多文種平面 | 6,582 | 27,496 |
| 2001 | 3.1 | 中日韓統一表意文字擴展B區 | 第二辅助平面(SIP,Supplementary Ideographic Plane) | 42,711 | 70,207 |
| 2003第一修訂版 | 4.1 | HKSCS-2004中未加入ISO 10646的漢字(U+9FA6-U+9FB3龦龧龨龩龪龫龬龭龮龯龰龱龲龳)和GB 18030-2000中未加入ISO 10646的印刷業常用的偏旁和字形部件(U+9FB4-U+9FBB龴龵龶龷龸龹龺龻) | 基本多文種平面 | 22 | 70,229 |
| 2003第四修訂版 | 5.1 | 7個日語漢字(U+9FBC-U+9FC2龼龽龾龿鿀鿁鿂),U+4039䀹 拆分為 U+4039䀹 和 U+9FC3鿃 | 基本多文種平面 | 8 | 70,237 |
| 2003第五修訂版 | 5.2 | 中日韓統一表意文字擴展C區 | 第二辅助平面 | 4,149 | 74,394 |
| 2003第六修訂版 | 2個日語用漢字(ARIB #47, #95,U+9FC4鿄-U+9FC5鿅)、1個新增漢字(ARIB #93,U+9FC6鿆)、在 HKSCS-2004 推出後新增的 5個香港漢字(U+9FC7-U+9FCB鿇鿈鿉鿊鿋) | 基本多文種平面 | 8 | ||
| 2010 | 6.0 | 中日韓統一表意文字擴展D區(2B740..2B81F) | 第二輔助平面 | 222 | 74,616 |
[编辑] 歷史
於1990年代初ISO 10646制訂時,來自台灣的代表提出相同形式的中日韓漢字給以統一編碼(Unify,ISO術語稱為「認同」),可以大量節省編碼空間,獲其他代表接納。
[编辑] 字源
[编辑] 最初期統一漢字
unicode范围是:0x4E00--0x9FCF。最初期的統一漢字(20,902字)字源來自以下字集:
- 中國大陆的G源
- G0:GB 2312-80:6,763字
- G1:GB 12345-90:2,352字(含58個香港字和92個吏讀字,不包括和GB 2312重複的字)
- G3:GB 7589-87 繁體版本:7,237字
- G5:GB 7590-87 繁體版本:7,039字
- G7:现代汉语通用字表:642(G0, 1, 3, 5, 8未包括的字)
- G8:GB 8565.2-89:290字(G0, 1, 3, 5未包括的字)
- 台灣的T源
- T1:CNS 11643-1986 第一字面:5,401+9個計量用漢字
- T2:CNS 11643-1986 第二字面:7,650字
- TE:CNS 11643-1986 第十四字面:6,319+239個CCCII特字+10個 Xerox Character Code Standard (XCCS) 特字
- 日本的J源
- J0:JIS X 0208-90:6,335+非漢字1字(仝)[2]
- J1:JIS X 0212-90:5,801字
- 韓国的K源
- K0:KS C 5601-87:4,888字(含268個重見字)
- K1:KS C 5657-91:2,856字
以上的來源字集會實施字源分離原則(下詳)。
另外還有:美國國會圖書館之東亞字元編碼(East Asia Character Code,簡稱 EACC;標準號 ANSI Z39.64-1989)[2]、Big5、CCCII第一面、GB 12052-89、JEF、中國電報碼、台灣電報碼、Xerox Chinese 等字集來源。
从Unihan数据库中的数据来看,G3中收入CJK的汉字有4835个,G5中收入CJK的汉字有2841个。G3、G5中除去收入CJK的汉字,余下的有一部分收入CJK-EXTA。
[编辑] 擴展A區
擴展A區包含有6,582個新的漢字,位置在 U+3400—U+4DB5。這6千多個漢字分別從以下字典或字集中取得:
- 中國大陸地區(中华人民共和国)
- 台灣地區(中華民國)
- T3:CNS 11643-1992 第三字面(原本為CNS 11643-1986第十四字面)新加入字元
- T4:CNS 11643-1992 第四字面
- T5:CNS 11643-1992 第五字面
- T6:CNS 11643-1992 第六字面
- T7:CNS 11643-1992 第七字面
- TF:CNS 11643-1992 第十五字面
- 日本
- JA: Unified Japanese IT Vendors Contemporary Ideographs, 1993
- 韓國
- K2:PKS C 5700-1:1994
- K3:PKS C 5700-2:1994
- 越南
[编辑] 擴展B區
擴展B區包含有42,711個新的漢字,位置在 U+20000—U+2A6D6。根據 IRG N777號文件,這四萬多個漢字分別從以下字典或字集中取得:
- 《康熙字典》中出現的18,486個未收錄漢字(包括一個在補遺篇出現的漢字);
- 《汉语大字典》中出現的28,914個未收錄漢字;
- 《辭源》中出現的66個未收錄漢字;
- 《辭海》中出現的247個未收錄漢字;
- 《汉语大词典》中出現的553個未收錄漢字;
- 《中国大百科全书》中出現的86個未收錄漢字;
- 北大方正排版系统中出現的65個未收錄漢字;
- 《四庫全書》中出現的522個未收錄漢字;
- 香港增補字符集中出現的1,081個未收錄漢字;
- 日本工業標準的JIS X 0213第3水準及第4水準的302個未收錄漢字;
- 南韓 PKS 5700-3:1998 中出現的166個未收錄漢字;
- 北韓 KPS 9566-97 和 KPS 10721-2000 國家標準所收錄的5,642個漢字;
- 台灣 CNS 11643 的第4至7和15平面所收錄的30,177個漢字;
- 越南 TCVN、VHN 01:1998 和 VHN 02:1998 所收錄的4,232個字喃;
這些漢字中重複的漢字有不少,所以經過整理之後,實際總數只有42,711個漢字。
另外,在 U+2F800—U+2FA1D 的位置,放了542個來自台灣的兼容漢字。
[编辑] Unicode 4.1漢字
為使 Unicode 向下兼容 GB 18030 和香港增補字符集(HKSCS)的所有漢字,而擴展C區又遲遲未能出籠,在 Unicode 4.1 版中引進了14個中國香港增補字符集的用字和8個 GB 18030 用字。該22字被編於 U+9FA6—U+9FBB 的位置。
另外,在 U+FA70—U+FAD9 的位置,放了106個來自北韓的兼容漢字。
[编辑] Unicode 5.1漢字
在2008年4月推出的 Unicode 5.1 版本,收錄7個由日本 Adobe 公司遞交的日語漢字(U+9FBC-U+9FC2)[3],和目字旁加㚒(大字加兩個入字,就如陝西省的陝字換上目字旁)的字 U+9FC3。本來 Unicode 3.0 收錄了目字旁加夾(大字加兩個人字)字的「䀹」(U+4039),目字旁加㚒字的字,與「䀹」無論在意義和發音均不相同,故魏安(Andrew West)和井作恆(John H. Jenkins)申請追加此字[4]。
[编辑] 擴展C區
於2009年10月發布的Unicode 5.2涵蓋了擴展C區,共收錄4,149個漢字,包括來自中國大陸、中國澳門、台灣、日本、越南等尚未被編碼的漢字。位置在 U+2A700—U+2B734。這四千多個漢字分別從以下字典或字集中取得:
- 中國大陸 共1119字
- 台灣 共1751字
- TC:CNS 11643-1992 第12字面634字
- TD:CNS 11643-1992 第13字面767字
- TE:CNS 11643-1992 第14字面350字
- 澳門
- MAC:澳門資訊系統字集16字
- 日本
- JK:日本國字集(Japanese KOKUJI Collection)367字
- 韓国
- K5H:韓國 IRG 漢字集第5版(Korean IRG Hanja Character Set 5th Edition: 2001)404字
- 朝鲜
- KP1:KPS 10721:2003 8字
- 越南 共784字 V4:
- 喃字詞典(Từ điển chữ Nôm), 阮光紅(Nguyễn Quang Hồng), 2006
- Từ điển chữ Nôm Tày, Hoàng Triều Ân, 2003
- Bảng tra chữ Nôm miền Nam, Vũ Văn Kính, 1994
- UTC來源 共75字 UTC:
[编辑] 擴展D區
擴充區D包含的都是所謂的「急用漢字」,合共222個新漢字,於2010年下旬發布的Unicode 6.0中,編碼範圍為 U+2B740-U+2B81F。
擴展D區原本計劃放置擴展C區未收錄的16,000多個漢字,但在2007年5月,台灣撤消了6,545個第二部份字集內私用漢字,不再使用字,原因是那些人名用字的擁有人或已去世或已移居外地[5],此後擴展D區縮減到大約10,000字左右。[6],由於各種阻礙,協議先把數量較少,又急切要收錄的漢字提交出來,就是「急用漢字」,以便和統一碼6.0.0版一起發表。提出的急用漢字只有二百二十二字(本來有二百二十三字,但中國大陸撤回其中一字)。現在文字小組把第二部份字集延後到擴充E區。
擴展D區漢字主要來自:
- 中國大陸:公安部身份證系統人名和地名用字。
- 台灣:教育部台语用字
- TB:CNS 11643-2007 第11平面24字(閩客方言用字)
- 日本:
- JH:Hanyo-Denshi Program (汎用電子情報交換環境整備プログラム)108字(日本經濟產業省提出的人名和地名用字)
- UTC:Unicode technical report #45
- UTC:19字
[编辑] 擴展E區
擴展E區現正處于研究階段,計劃放置于編碼範圍 U+2B820-U+2F7FF 中。
擴展E區將包含1,277個新越南漢字[7]、被台灣的閩南語和客家話所使用的24個台灣漢字[8] 以及2個中華人民共和國地名用字。[9][10]
[编辑] 字源分離原則
字源分離原則(Source Separation Rule)是整理中日韓統一表意文字的基礎。
由於CJK各地字型多有微妙的差異,如「戶」字的第一筆,台灣作撇「戶」、中國香港及中國作點「户」、日本作橫「戸」,這種程度的差異,理想上是整併為一個字為佳。然而,從之前各種受挫之文字整併計劃的經驗得知,整合字集與現行通用字集(Big5或國標碼)等無法一一對應,是推行整合字集的最大阻礙。
例如,日本的JIS標準同時收錄了「剣」字與「劍」字,原本JIS文件裡這兩個字可以並存,但採用整合字集後反而變成同一個字,會造成使用上的困擾。而且,如果將多個不同地區字形合併會影響閱讀者,令使用者不習慣並非以往所見字形;更有可能引致閱讀者因習慣而書寫不屬於自己地區的字形(或地區性的異體字)、學習錯誤的字形。於是,字源分離原則因而誕生。
而在不同地區而有不同寫法的部首,如「⻌(中)、⻍(港台舊字體)、辶(港台)」、「⺾(新字體)、卝䒑(舊字體)」、「⺥(中)、爫(港台)」等就會交由字體處理,例如使用依中國漢字標準《印刷通用漢字字形表》的字體下(如中易宋體、微軟雅黑體)便會出現「⻌、⺥」;使用港台字體標準字體下(如微軟正黑體,但非舊版細明體[11])就會出現「辶、爫」等字形。大大解決了因地區而異之部首寫法。
字源分離原則是指,在上述所列出之各種字源裡,若有任何字集同時收了兩種以上的文字字形,則在Unicode中日韓統一表意文字中,也同時收錄這些字。這樣一來,現行的各種原有字集與Unicode漢字可以一一對應。
由於Unicode中日韓統一表意文字的主要訴求,就是能大幅減少Unicode收錄漢字字數,同時尊重各地的習慣字形。但字源分離原則則破壞了「只對字,而不對字形」編碼之原則,亦遭受不少批評。
[编辑] 批評
合併同義字,雖有助減少收錄字數,但在研究學術時,如古籍、歷史及文字研究等,部份文獻確要將字形不同之字同時並列,已合拼各字,變得各有各意思。學者若用Unicode,遇此情況,就要用同碼不同電腦字形,甚至要自行造字,或捨Unicode而用其他編碼。一來尋轉電腦字形不便,二來有損Unicode記錄隻隻字之用意,三來不能以純文本交換。另外亦不能以Unicode準確記錄文獻,原本不同字形之字合拼,原有有別義,轉Unicode而訛誤,不利於文本存於電腦。
另外,同一部件,有分有合,原則不一致。如眞真分而直直合,令人混淆。
不同字形之字合拼後,若檢索方法以字形爲本,會混亂而難以檢索。例如筆劃檢字,艸部之草花頭,日本大陸計三劃,而傳統中文四劃,留有艸形則六劃。Unicode同一字碼,源於字形不同,就有幾種筆劃,檢索混亂。即使檢出字,筆劃與顯示之字亦不符。
文化上,東亞各國用字形有別,用電腦字形亦有別,在日本難以用傳統字之電腦字體,在港臺難以用日本電腦字體,故合拼後,文本要顯示文化差異之字形,則大有困難。
[编辑] 已統一漢字
原則上ISO 10646只對字(Character),而非字形(Glyph)編碼。同一字各地可使用自己的標準寫法。下例中使用HTML標示同一編碼的字在不同地區中的寫法(但只是读者電腦提供的字型,未必代表該地區的標準寫法)。
例子:
| Unicode | 中文 | 日文 | 韓文 | ||
|---|---|---|---|---|---|
| 中國大陆 | 台灣 | 中國香港 | |||
| U+6E2F | 港 | 港 | 港 | 港 | 港 |
| U+6F22 | 漢 | 漢 | 漢 | 漢 | 漢 |
| U+76F4 | 直 | 直 | 直 | 直 | 直 |
| U+7A97 | 窗 | 窗 | 窗 | 窗 | 窗 |
| U+89D2 | 角 | 角 | 角 | 角 | 角 |
| U+8D77 | 起 | 起 | 起 | 起 | 起 |
| U+9AA8 | 骨 | 骨 | 骨 | 骨 | 骨 |
註:不是所有網頁瀏覽器均可分辨全部 HTML 的語言代碼(Language Code)並使用不同字形。如非某一地区的使用者看到的字形和当地通用的字形一樣,表示该用户的瀏覽器不能分辨此標籤,或設定兩者以同一種字形顯示。具体情况请参考 Test results: Automatic font assignment for CJK text。
[编辑] 未統一漢字
有些字只是同一字在不同地區的寫法,理應統一,但因為字源分離原則而只好分開編碼。值得注意的是字源分離原則由“Unicode聯盟決定把不正統的編入位於基本多文種平面的『相容表意文字區』(Compatibility Ideographs)”時起廢棄,原因是CNS中有太多字形非常接近,按 Unicode 標準應該統一的字。這些字只有正統的會編入正式字集(包括擴展A、B、C區)中,不正統的編入位於「第二輔助平面」的「相容表意文字補充區」(Compatibility Ideographs Supplement)中。
例子:
| Unicode | 字 | Unicode | 字 | Unicode | 字 |
|---|---|---|---|---|---|
| U+4E1F | 丟 | U+4E22 | 丢 | ||
| U+514C | 兌 | U+5151 | 兑 | ||
| U+518A | 冊 | U+518C | 册 | ||
| U+5433 | 吳 | U+5434 | 吴 | U+5449 | 呉 |
| U+543F | 吿 | U+544A | 告 | ||
| U+5965 | 奥 | U+5967 | 奧 | ||
| U+5968 | 奨 | U+596C | 奬 | U+734E | 獎 |
| U+5986 | 妆 | U+599D | 妝 | ||
| U+59CD | 姍 | U+59D7 | 姗 | ||
| U+5C13 | 尓 | U+5C14 | 尔 | ||
| U+5F54 | 彔 | U+5F55 | 录 | ||
| U+6236 | 戶 | U+6237 | 户 | U+6238 | 戸 |
| U+63FA | 揺 | U+6416 | 搖 | U+6447 | 摇 |
| U+66A8 | 暨 | U+66C1 | 曁 | ||
| U+69D8 | 様 | U+6A23 | 樣 | ||
| U+6A2A | 横 | U+6A6B | 橫 | ||
| U+6B65 | 步 | U+6B69 | 歩 | ||
| U+7155 | 煕 | U+7199 | 熙 | ||
| U+7D55 | 絕 | U+7D76 | 絶 | ||
| U+7DA0 | 綠 | U+7DD1 | 緑 | ||
| U+9AEA | 髪 | U+9AEE | 髮 | ||
| U+9EAA | 麪 | U+9EAB | 麫 | ||
| U+9EBC | 麼 | U+9EBD | 麽 | ||
| U+9EC3 | 黃 | U+9EC4 | 黄 | ||
| U+9ED1 | 黑 | U+9ED2 | 黒 |
自上表發表後,WG2 亦調查過其他漢字[12],認為以下屬於基本多文種平面的漢字,亦可考慮收編到 ISO 10646 Annex S3:
| Unicode | 字 | Unicode | 字 |
|---|---|---|---|
| U+5022 | 倢 | U+507C | 偼 |
| U+52C0 | 勀 | U+52CA | 勊 |
| U+5637 | 嘷 | U+5651 | 噑 |
| U+5EFB | 廻 | U+5EFD | 廽 |
| U+6323 | 挣 | U+6399 | 掙 |
| U+66AD | 暭 | U+66CD | 曍 |
| U+6808 | 栈 | U+685F | 桟 |
| U+6D85 | 涅 | U+6E7C | 湼 |
| U+6F40 | 潀 | U+6F68 | 潨 |
| U+6FF2 | 濲 | U+7014 | 瀔 |
| U+734B | 獋 | U+7354 | 獔 |
| U+84D8 | 蓘 | U+8509 | 蔉 |
| U+86D4 | 蛔 | U+8716 | 蜖 |
| U+8B86 | 讆 | U+8B8F | 讏 |
| U+8FF4 | 迴 | U+9025 | 逥 |
| U+91F0 | 釰 | U+91FC | 釼 |
[编辑] 擴展B區的問題
擴展B區使用了輔助平面來擺放漢字,以致不少文書處理軟件都不能支援。例如,Microsoft Office 2000 或之前的版本,即使電腦擁有擴展B區漢字字體,也只會顯示兩個方格。
另外,因擴展B區在整理上有缺陷,收錄了以下5個本來應該與其他漢字統一的字[13]:
- U+20457 = U+34A8
- U+2420E = U+3DB7
- U+27144 = U+8641
- U+23515 = U+204F2
- U+249E9 = U+249BC
而在 WG2 N1155[12] 文件中,亦列出了152對可考慮統一的漢字。
[编辑] 注释
- ^ 這個十二個字放到兼容區不是因為和其他字同形或為異體,而是因為它們只收錄在廠商用字中,但未有收錄在官方標準(C-、T-、J-、K-Source)中。他們有獨立的形、音、義,即「獨一」(Unique),Unicode 5.0, 第 412 頁 [1]
- ^ http://fonts.jp/hanazono/
- ^ http://std.dkuug.dk/JTC1/SC2/WG2/docs/n3210.pdf
- ^ http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3196.pdf
- ^ IRG N 1306: Request to Withdraw 6545 T-Source from CJK D candidate
- ^ http://www.cse.cuhk.edu.hk/~irg/irg/irg28/IRGN1319A1_MoveToCJK_D.pdf
- ^ http://www.cse.cuhk.edu.hk/~irg/irg/irg28/IRGN1279_CJK_DVietNam.pdf
- ^ http://www.cse.cuhk.edu.hk/~irg/irg/irg28/IRGN1305_CJKD_24Char_TCA.pdf
- ^ IRGN1324 Submitted To D_China (PDF)
- ^ CJK Unified Ideographs: To Infinity and Beyond
- ^ 舊版細明體指 Windows XP 或以前版本之新細明體及細明體。
- ^ 12.0 12.1 http://www.cse.cuhk.edu.hk/~irg/irg/irg25/IRGN1155_Possible_Duplicates.pdf
- ^ http://std.dkuug.dk/JTC1/SC2/wg2/docs/n2644.pdf
[编辑] 參看
[编辑] 外部連結
- JTC1/SC2/WG2 - ISO/IEC 10646 - UCS
- Unicode
- Han Unification History
- Unihan(統漢碼)漢字搜尋工具
- Unicode Roadmap to the SIP
- 中日韓統一表意文字(PDF,5.11MB)
- 中日韓兼容漢字(PDF,650kB)
- 擴展A區漢字(PDF,1.68MB)
- 擴展B區漢字(PDF,12.3MB)
- 擴展B區兼容漢字(PDF,608kB)
- 擴展C區漢字(PDF,2.47MB)
- ISO表意文字工作組
- CJK-CODE
- UTF-8 and Unicode FAQ for Unix/Linux
- 中華民國教育部異體字字典附錄-中日韓共用漢字表
| Unicode 相關的條目 |
|---|
| Unicode字符列表 | Unicode聯盟 | Unicode技術委員會 | ISO 10646(通用字符集) | UTF-7 | UTF-8 | UTF-16 / UCS-2 | UTF-32 / UCS-4 |
| Unicode字符平面映射 | 中日韓統一表意文字 | CJKV | 表意文字小組(IRG) | IICore | 完整Unicode編碼表 |
|
|||||||||||||||||||||||||||||||||||||||||||||||