中日韓統一表意文字

维基百科,自由的百科全书

跳转到: 导航, 搜索

中日韓統一表意文字英語CJK Unified Ideographs),也稱統漢字Unihan),目的是要把分別來自中文日文韓文越文中,本質相同、形狀一樣或稍異的表意文字(主要為汉字,但也有仿漢字如方塊壯字日本國字、韓國獨有漢字、越南喃字)於ISO 10646Unicode標準內賦予相同編碼

越南文後來加入此計劃,所以亦有 CJKV(中日韓越統一表意文字)的稱呼。Unicode亦開始收錄越漢字——喃字

目录

[编辑] 版本

ISO 10646 版本 Unicode 版本 新增 置放平面 字數 累計字數
1993 1.0 中日韓統一表意文字 基本多文種平面(BMP, Basic Multilingual Plane) 20,902 20,914
位於「相容表意文字區」中但實則獨一的漢字(U+FA0E, U+FA0F, U+FA11, U+FA13,

U+FA14, U+FA1F, U+FA21, U+FA23, U+FA24, U+FA27, U+FA28 及 U+FA29)[1]

基本多文種平面 12
2000 3.0 中日韓統一表意文字擴展A區 基本多文種平面 6,582 27,496
2001 3.1 中日韓統一表意文字擴展B區 第二辅助平面(SIP, Supplementary Ideographic Plane) 42,711 70,207
2003第一修訂版 4.1 HKSCS-2004GB 18030-2000 中仍未加入 ISO 10646 的漢字(分別為 U+9FA6-U+9FB3, U+9FB4-U+9FBB) 基本多文種平面 22 70,229
2003第四修訂版 5.1 7個日語漢字(U+9FBC-U+9FC2),U+4039 拆分為 U+4039 和 U+9FC3 基本多文種平面 8 70,237
2003第五修訂版[2] 5.2(預計) 中日韓統一表意文字擴展C區 第二辅助平面 4,149 74,394
2003第六修訂版? 2個日語用漢字(ARIB #47, #95,U+9FC4-U+9FC5)、1個新增漢字(ARIB #93,U+9FC6)、在 HKSCS-2004 推出後新增的5個香港漢字(U+9FC7-U+9FCB) 基本多文種平面 8
2003第八修訂版? 未知 中日韓統一表意文字擴展D區(即UNC急用汉字)[3] 第二辅助平面 223 74525

[编辑] 歷史

於1990年代初ISO 10646制訂時,來自台灣的代表提出相同形式的中日韓漢字給以統一編碼(Unify, ISO術語稱為認同),可以大量節省編碼空間,獲其他代表接納。

[编辑] 字源

[编辑] 最初期統一漢字

最初期的統一漢字(20,902字)字源來自以下字集

以上的來源字集會實施字源分離原則

另外還有:EACCANSI Z39.64-1989Big5CCCII第一面、GB 12052-89JEF、中國大陸電報碼、台灣電報碼、Xerox Chinese等字集來源。

从Unihan数据库中的数据来看,G3中收入CJK的汉字有4835个,G5中收入CJK的汉字有2841个。G3、G5中除去收入CJK的汉字,余下的有一部分收入CJK-EXTA。

[编辑] 擴展A區

擴展A區包含有6,582個新的漢字,位置在 U+3400—U+4DB5。這6千多個漢字分別從以下字典或字集中取得:

  • 中國大陸
  • 台灣
    • T3:CNS 11643-1992 第三字面(原本為CNS 11643-1986第十四字面)新加入字元
    • T4:CNS 11643-1992 第四字面
    • T5:CNS 11643-1992 第五字面
    • T6:CNS 11643-1992 第六字面
    • T7:CNS 11643-1992 第七字面
    • TF:CNS 11643-1992 第十五字面
  • 日本
    • JA: Unified Japanese IT Vendors Contemporary Ideographs, 1993
  • 南韓
  • 越南

虽然正式文件中并没有说明扩展A区的G3和G5来源,但从Unihan数据中可以看出,G3中有个2841汉字收在其中,G5中有个1226汉字收在其中。

[编辑] 擴展B區

擴展B區包含有42,711個新的漢字,位置在 U+20000—U+2A6D6。根據IRG N777號文件,這四萬多個漢字分別從以下字典或字集中取得:

  • 康熙字典》中出現的18,486個未收錄漢字(包括一個在補遺篇出現的漢字);
  • 汉语大字典》中出現的28,914個未收錄漢字;
  • 辭源》中出現的66個未收錄漢字;
  • 辭海》中出現的247個未收錄漢字;
  • 汉语大词典》中出現的553個未收錄漢字;
  • 中国大百科全书》中出現的86個未收錄漢字;
  • 北大方正排版系统中出現的65個未收錄漢字;
  • 四庫全書》中出現的522個未收錄漢字;
  • 香港增補字符集中出現的1,081個未收錄漢字;
  • 日本工業標準JIS X 0213第3平面及第4平面的302個未收錄漢字;
  • 南韓 PKS 5700-3:1998 中出現的166個未收錄漢字;
  • 北韓 KPS 9566-97 和 KPS 10721-2000 國家標準所收錄的5,642個漢字;
  • 台灣 CNS 11643 的第4至7和15平面所收錄的30,177個漢字;
  • 越南 TCVN、VHN 01:1998 和 VHN 02:1998 所收錄的4,232個字喃;

這堆漢字中重複的漢字有不少,所以經過整理之後,實際總數只有42,711個漢字。

另外,在 U+2F800—U+2FA1D 的位置,放了542個來自台灣的兼容漢字。

[编辑] Unicode 4.1漢字

為使 Unicode 向下兼容 GB 18030香港增補字符集(HKSCS)的所有漢字,而擴展C區又遲遲未能出籠,在 Unicode 4.1 版中引進了14個香港增補字符集的用字和8個 GB 18030 用字。該22字被編於 U+9FA6—U+9FBB 的位置。

另外,在 U+FA70—U+FAD9 的位置,放了106個來自北韓的兼容漢字。

[编辑] Unicode 5.1漢字

在2008年4月推出的 Unicode 5.1 版本,收錄7個由日本 Adobe 公司遞交的個日語漢字(U+9FBC-U+9FC2)[2],和目字旁加㚒(大字加兩個字,就如陝西省的陝字換上目字旁)的字 U+9FC3。本來 Unicode 3.0 收錄了目字旁加夾(大字加兩個字)字的「䀹」(U+4039),目字旁加㚒字的字,與「䀹」無論在意義和發音均不相同,故魏安(Andrew West)和井作恆(John H. Jenkins)申請追加此字[3]

[编辑] 擴展C區

按計劃,中日韓統一表意文字擴展C區將收錄4,149個漢字,包括來自中國大陸、澳門、台灣、日本、越南等尚未被編碼的漢字。這些漢字預計會收錄在下一版的 Unicode 版本中,位置在 U+2A700—U+2B734。根據IRG N1266號文件(另見 N3270),這四千多個漢字分別從以下字典或字集中取得:

以上来源字数信息据ISO10646:2003第五修订版中的CJKU-SR.TXT.

[编辑] 擴展D區

根据WG2 N3604擴展D區将会放置急用汉字(UNC),编码范围为 U+2B740-U+2B81E,编码223个汉字。而之前计划的擴展D则改为擴展E,目前仍在制订中。

[编辑] 擴展E區

即之前的擴展D區计划收录的汉字,因为急用汉字(UNC)被放置在擴展D區,所以之前计划的擴展D區改为擴展E區。


[编辑] 字源分離原則

字源分離原則Source Separation Rule)是整理中日韓統一表意文字的基礎。

由於CJK各地字型多有微妙的差異,如「戶」字的第一筆,台灣作撇「戶」、香港及中國大陸作點「户」、日本作橫「戸」,這種程度的差異,理想上是整併為一個字為佳。然而,從之前各種受挫之文字整併計劃的經驗得知,整合字集與現行通用字集(Big5國標碼)等無法一一對應,是推行整合字集的最大阻礙。

例如,日本的JIS標準同時收錄了「剣」字與「劍」字,原本JIS文件裡這兩個字可以並存,但採用整合字集後反而變成同一個字,會造成使用上的困擾。而且,如果將多個不同地區字形合併會影響閱讀者,令使用者不習慣並非以往所見字至;更有可能引致閱讀者因習慣而書寫不屬於自己地區的字形(或地區性的異體字)、學習錯誤的字形。於是,字源分離原則因而誕生。

而在不同地區而有不同寫法的部首,如「⻌(中)、⻍(港台舊字體)、辶(港台)」、「⺾(新字體)、卝䒑(舊字體)」、「⺥(中)、爫(港台)」等就會交由字體處理,例如使用依中國大陆漢字標準《印刷通用漢字字形表》的字體下(如中易宋體微軟雅黑體)便會出現「⻌、⺥」;使用港台字體標準字體下(如微軟正黑體,但舊版細明體[4])就會出現「辶、爫」等字形。大大解決了因地區而異之部首寫法。

字源分離原則是指,在上述所列出之各種字源裡,若有任何字集同時收了兩種以上的文字字形,則在Unicode中日韓統一表意文字中,也同時收錄這些字。這樣一來,現行的各種原有字集與Unicode漢字可以一一對應。

由於Unicode中日韓統一表意文字的主要訴求,就是能大幅減少Unicode收錄漢字字數,同時尊重各地的習慣字形。但字源分離原則則破壞了「只對字,而不對字形」編碼之原則,亦遭受不少批評。

[编辑] 已統一的漢字

原則上ISO 10646只對(Character),而非字形(Glyph)編碼。同一字各地可使用自己的標準寫法。下例中使用HTML標示同一編碼的字在不同地區中的寫法(但只是读者電腦提供的字型,未必代表該地區的標準寫法)。

例子:

Unicode 中文 日文 韓文
中國大陸 台灣 香港
U+6D2A
U+6F22
U+76F4
U+7A97
U+89D2
U+8D77
U+9AA8

註:不是所有網頁瀏覽器均可分辨全部 HTML語言代碼(Language Code)並使用不同字形。如非某一地区的使用者看到的字形和当地通用的字形一樣,表示该用户的瀏覽器不能分辨此標籤,或設定兩者以同一種字形顯示。具体情况请参考 Test results: Automatic font assignment for CJK text

[编辑] 沒有統一的漢字

有些字只是同一字在不同地區的寫法,理應統一,但因為字源分離原則而只好分開編碼。值得注意的是字源分離原則由“Unicode聯盟決定把不正統的編入位於基本多文種平面的‘相容表意文字區’(Compatibility Ideographs)”時起廢棄,原因是CNS中有太多字形非常接近,按 Unicode 標準應該統一的字。這些字只有正統的會編入正式字集(包括擴展A、B、C區)中,不正統的編入位於「第二輔助平面」的「相容表意文字補充區」(Compatibility Ideographs Supplement)中。

以下是所有摘自ISO/IEC JTC1/SC2/WG2字源分離原則文件之中有的字。

自上表發表後,WG2 亦調查過其他漢字[5],認為以下屬於基本多文種平面的漢字,亦可考慮收編到 ISO 10646 Annex S3:

[编辑] 擴展B區的問題

擴展B區使用了輔助平面來擺放漢字,以致不少文書處理軟件都不能支援。例如,Microsoft Office 2000 或之前的版本,即使電腦擁有擴展B區漢字字體,也只會顯示兩個方格。

另外,因擴展B區在整理上有缺陷,收錄了以下5個本來應該與其他漢字統一的字[6]

而在 WG2 N1155[5] 文件中,亦列出了152對可考慮統一的漢字。

[编辑] 注释

  1. ^ 這個十二個字放到兼容區不是因為和其他字同形或為異體,而是因為它們只收錄在廠商用字中,但未有收錄在官方標準(C-, T-, J-, K-Source)中。他們有獨立的形、音、義,即「獨一」(Unique),Unicode 5.0, 第 412 頁[1]
  2. ^ http://www.dkuug.dk/JTC1/SC2/WG2/docs/n3210.pdf
  3. ^ http://www.dkuug.dk/jtc1/sc2/wg2/docs/N3196.pdf
  4. ^ 舊版細明體指 Windows XP 或以前版本之新細明體及細明體。
  5. ^ 5.0 5.1 http://www.cse.cuhk.edu.hk/~irg/irg/irg25/IRGN1155_Possible_Duplicates.pdf
  6. ^ http://std.dkuug.dk/JTC1/SC2/wg2/docs/n2644.pdf

[编辑] 參看

[编辑] 外部連結

Unicode 相關的條目
Unicode字符列表 | Unicode聯盟 | Unicode技術委員會 | ISO 10646(通用字符集) | UTF-7 | UTF-8 | UTF-16 / UCS-2 | UTF-32 / UCS-4
基本多文種平面 | 辅助平面 | 中日韓統一表意文字 | CJKV | 表意文字小組(IRG) | IICore | 完整Unicode編碼表
个人工具