中日韓越統一表意文字

维基百科,自由的百科全书
(重定向自中日韓統一表意文字
跳转到: 导航, 搜索

中日韓統一表意文字英语CJK Unified Ideographs),也稱中日韓越統一表意文字英语CJKV Unified Ideographs)、統漢字英语Unihan),目的是要把分別來自中文日文韓文越文壮文中,本質相同、形狀一樣或稍異的表意文字(主要為汉字,但也有仿漢字如方塊壯字日本國字、韓國獨有漢字、越南喃字)於ISO 10646Unicode標準內賦予相同編碼

越南文後來加入此計劃,所以亦有 CJKV(中日韓越統一表意文字)的稱呼。Unicode亦開始收錄越漢字——喃字

目录

[编辑] 版本

ISO 10646 版本 Unicode 版本 新增 置放平面 字數 累計字數
1993 1.0 中日韓統一表意文字 基本多文種平面(BMP,Basic Multilingual Plane) 20,902 20,914
位於「相容表意文字區」中但實則獨一的漢字(U+FA0E(﨎)、U+FA0F(﨏)、U+FA11(﨑)、U+FA13(﨓)、U+FA14(﨔)、U+FA1F(﨟)、U+FA21(﨡)、U+FA23(﨣)、U+FA24(﨤)、U+FA27(﨧)、U+FA28(﨨)、U+FA29(﨩)[1] 基本多文種平面 12
2000 3.0 中日韓統一表意文字擴展A區 基本多文種平面 6,582 27,496
2001 3.1 中日韓統一表意文字擴展B區 第二辅助平面(SIP,Supplementary Ideographic Plane) 42,711 70,207
2003第一修訂版 4.1 HKSCS-2004中未加入ISO 10646的漢字(U+9FA6-U+9FB3龦龧龨龩龪龫龬龭龮龯龰龱龲龳)和GB 18030-2000中未加入ISO 10646的印刷業常用的偏旁和字形部件(U+9FB4-U+9FBB龴龵龶龷龸龹龺龻) 基本多文種平面 22 70,229
2003第四修訂版 5.1 7個日語漢字(U+9FBC-U+9FC2龼龽龾龿鿀鿁鿂),U+4039䀹 拆分為 U+4039䀹 和 U+9FC3鿃 基本多文種平面 8 70,237
2003第五修訂版 5.2 中日韓統一表意文字擴展C區 第二辅助平面 4,149 74,394
2003第六修訂版 2個日語用漢字(ARIB #47, #95,U+9FC4鿄-U+9FC5鿅)、1個新增漢字(ARIB #93,U+9FC6鿆)、在 HKSCS-2004 推出後新增的 5個香港漢字(U+9FC7-U+9FCB鿇鿈鿉鿊鿋) 基本多文種平面 8
2010 6.0 中日韓統一表意文字擴展D區(2B740..2B81F) 第二輔助平面 222 74,616

[编辑] 歷史

於1990年代初ISO 10646制訂時,來自台灣的代表提出相同形式的中日韓漢字給以統一編碼(Unify,ISO術語稱為「認同」),可以大量節省編碼空間,獲其他代表接納。

[编辑] 字源

[编辑] 最初期統一漢字

unicode范围是:0x4E00--0x9FCF。最初期的統一漢字(20,902字)字源來自以下字集

以上的來源字集會實施字源分離原則(下詳)。

另外還有:美國國會圖書館之東亞字元編碼(East Asia Character Code,簡稱 EACC;標準號 ANSI Z39.64-1989)[2]Big5CCCII第一面、GB 12052-89JEF、中國電報碼、台灣電報碼、Xerox Chinese 等字集來源。

从Unihan数据库中的数据来看,G3中收入CJK的汉字有4835个,G5中收入CJK的汉字有2841个。G3、G5中除去收入CJK的汉字,余下的有一部分收入CJK-EXTA。

[编辑] 擴展A區

擴展A區包含有6,582個新的漢字,位置在 U+3400—U+4DB5。這6千多個漢字分別從以下字典或字集中取得:

  • 中國大陸地區(中华人民共和国)
    • 康熙字典》5357字(獨有1892字)
    • 漢語大字典》5888字(獨有339字)
    • G3:GB 7589-87 繁体版本:2391字
    • G5:GB 7590-87 繁体版本:1226字
    • G7:120字
    • GS:新加坡漢字226字
  • 台灣地區(中華民國)
    • T3:CNS 11643-1992 第三字面(原本為CNS 11643-1986第十四字面)新加入字元
    • T4:CNS 11643-1992 第四字面
    • T5:CNS 11643-1992 第五字面
    • T6:CNS 11643-1992 第六字面
    • T7:CNS 11643-1992 第七字面
    • TF:CNS 11643-1992 第十五字面
  • 日本
    • JA: Unified Japanese IT Vendors Contemporary Ideographs, 1993
  • 韓國
  • 越南

[编辑] 擴展B區

擴展B區包含有42,711個新的漢字,位置在 U+20000—U+2A6D6。根據 IRG N777號文件,這四萬多個漢字分別從以下字典或字集中取得:

這些漢字中重複的漢字有不少,所以經過整理之後,實際總數只有42,711個漢字。

另外,在 U+2F800—U+2FA1D 的位置,放了542個來自台灣的兼容漢字

[编辑] Unicode 4.1漢字

為使 Unicode 向下兼容 GB 18030香港增補字符集(HKSCS)的所有漢字,而擴展C區又遲遲未能出籠,在 Unicode 4.1 版中引進了14個中國香港增補字符集的用字和8個 GB 18030 用字。該22字被編於 U+9FA6—U+9FBB 的位置。

另外,在 U+FA70—U+FAD9 的位置,放了106個來自北韓的兼容漢字。

[编辑] Unicode 5.1漢字

在2008年4月推出的 Unicode 5.1 版本,收錄7個由日本 Adobe 公司遞交的日語漢字(U+9FBC-U+9FC2)[3],和目字旁加㚒(大字加兩個字,就如陝西省的陝字換上目字旁)的字 U+9FC3。本來 Unicode 3.0 收錄了目字旁加夾(大字加兩個字)字的「䀹」(U+4039),目字旁加㚒字的字,與「䀹」無論在意義和發音均不相同,故魏安(Andrew West)和井作恆(John H. Jenkins)申請追加此字[4]

[编辑] 擴展C區

於2009年10月發布的Unicode 5.2涵蓋了擴展C區,共收錄4,149個漢字,包括來自中國大陸中國澳門台灣日本越南等尚未被編碼的漢字。位置在 U+2A700—U+2B734。這四千多個漢字分別從以下字典或字集中取得:

[编辑] 擴展D區

擴充區D包含的都是所謂的「急用漢字」,合共222個新漢字,於2010年下旬發布的Unicode 6.0中,編碼範圍為 U+2B740-U+2B81F。

擴展D區原本計劃放置擴展C區未收錄的16,000多個漢字,但在2007年5月,台灣撤消了6,545個第二部份字集內私用漢字,不再使用字,原因是那些人名用字的擁有人或已去世或已移居外地[5],此後擴展D區縮減到大約10,000字左右。[6],由於各種阻礙,協議先把數量較少,又急切要收錄的漢字提交出來,就是「急用漢字」,以便和統一碼6.0.0版一起發表。提出的急用漢字只有二百二十二字(本來有二百二十三字,但中國大陸撤回其中一字)。現在文字小組把第二部份字集延後到擴充E區。

擴展D區漢字主要來自:

  • 中國大陸:公安部身份證系統人名和地名用字。
    • G_CH:《辭海》1字
    • G_IDC:公安部身份证用字3字
    • G_IDCX:公安部身份证用字29字
    • G_XC:《现代汉语词典》4字
    • G_ZH:《中华字海》39字
  • 台灣:教育部台语用字
    • TB:CNS 11643-2007 第11平面24字(閩客方言用字)
  • 日本:
    • JH:Hanyo-Denshi Program (汎用電子情報交換環境整備プログラム)108字(日本經濟產業省提出的人名和地名用字)
  • UTC:Unicode technical report #45
    • UTC:19字

[编辑] 擴展E區

擴展E區現正處于研究階段,計劃放置于編碼範圍 U+2B820-U+2F7FF 中。

擴展E區將包含1,277個新越南漢字[7]、被台灣的閩南語客家話所使用的24個台灣漢字[8] 以及2個中華人民共和國地名用字。[9][10]

[编辑] 字源分離原則

字源分離原則Source Separation Rule)是整理中日韓統一表意文字的基礎。

由於CJK各地字型多有微妙的差異,如「戶」字的第一筆,台灣作撇「戶」、中國香港及中國作點「户」、日本作橫「戸」,這種程度的差異,理想上是整併為一個字為佳。然而,從之前各種受挫之文字整併計劃的經驗得知,整合字集與現行通用字集(Big5國標碼)等無法一一對應,是推行整合字集的最大阻礙。

例如,日本的JIS標準同時收錄了「剣」字與「劍」字,原本JIS文件裡這兩個字可以並存,但採用整合字集後反而變成同一個字,會造成使用上的困擾。而且,如果將多個不同地區字形合併會影響閱讀者,令使用者不習慣並非以往所見字形;更有可能引致閱讀者因習慣而書寫不屬於自己地區的字形(或地區性的異體字)、學習錯誤的字形。於是,字源分離原則因而誕生。

而在不同地區而有不同寫法的部首,如「⻌(中)、⻍(港台舊字體)、辶(港台)」、「⺾(新字體)、卝䒑(舊字體)」、「⺥(中)、爫(港台)」等就會交由字體處理,例如使用依中國漢字標準《印刷通用漢字字形表》的字體下(如中易宋體微軟雅黑體)便會出現「⻌、⺥」;使用港台字體標準字體下(如微軟正黑體,但舊版細明體[11])就會出現「辶、爫」等字形。大大解決了因地區而異之部首寫法。

字源分離原則是指,在上述所列出之各種字源裡,若有任何字集同時收了兩種以上的文字字形,則在Unicode中日韓統一表意文字中,也同時收錄這些字。這樣一來,現行的各種原有字集與Unicode漢字可以一一對應。

由於Unicode中日韓統一表意文字的主要訴求,就是能大幅減少Unicode收錄漢字字數,同時尊重各地的習慣字形。但字源分離原則則破壞了「只對字,而不對字形」編碼之原則,亦遭受不少批評。

[编辑] 批評

合併同義字,雖有助減少收錄字數,但在研究學術時,如古籍、歷史及文字研究等,部份文獻確要將字形不同之字同時並列,已合拼各字,變得各有各意思。學者若用Unicode,遇此情況,就要用同碼不同電腦字形,甚至要自行造字,或捨Unicode而用其他編碼。一來尋轉電腦字形不便,二來有損Unicode記錄隻隻字之用意,三來不能以純文本交換。另外亦不能以Unicode準確記錄文獻,原本不同字形之字合拼,原有有別義,轉Unicode而訛誤,不利於文本存於電腦。

另外,同一部件,有分有合,原則不一致。如眞真分而直直合,令人混淆。

不同字形之字合拼後,若檢索方法以字形爲本,會混亂而難以檢索。例如筆劃檢字,艸部之草花頭,日本大陸計三劃,而傳統中文四劃,留有艸形則六劃。Unicode同一字碼,源於字形不同,就有幾種筆劃,檢索混亂。即使檢出字,筆劃與顯示之字亦不符。

文化上,東亞各國用字形有別,用電腦字形亦有別,在日本難以用傳統字之電腦字體,在港臺難以用日本電腦字體,故合拼後,文本要顯示文化差異之字形,則大有困難。


[编辑] 已統一漢字

原則上ISO 10646只對(Character),而非字形(Glyph)編碼。同一字各地可使用自己的標準寫法。下例中使用HTML標示同一編碼的字在不同地區中的寫法(但只是读者電腦提供的字型,未必代表該地區的標準寫法)。

例子:

Unicode 中文 日文 韓文
中國大陆 台灣 中國香港
U+6E2F
U+6F22
U+76F4
U+7A97
U+89D2
U+8D77
U+9AA8

註:不是所有網頁瀏覽器均可分辨全部 HTML語言代碼(Language Code)並使用不同字形。如非某一地区的使用者看到的字形和当地通用的字形一樣,表示该用户的瀏覽器不能分辨此標籤,或設定兩者以同一種字形顯示。具体情况请参考 Test results: Automatic font assignment for CJK text

[编辑] 未統一漢字

有些字只是同一字在不同地區的寫法,理應統一,但因為字源分離原則而只好分開編碼。值得注意的是字源分離原則由“Unicode聯盟決定把不正統的編入位於基本多文種平面的『相容表意文字區』(Compatibility Ideographs)”時起廢棄,原因是CNS中有太多字形非常接近,按 Unicode 標準應該統一的字。這些字只有正統的會編入正式字集(包括擴展A、B、C區)中,不正統的編入位於「第二輔助平面」的「相容表意文字補充區」(Compatibility Ideographs Supplement)中。

例子:

Unicode Unicode Unicode
U+4E1F U+4E22    
U+514C U+5151    
U+518A U+518C    
U+5433 U+5434 U+5449
U+543F U+544A    
U+5965 U+5967    
U+5968 U+596C U+734E
U+5986 U+599D    
U+59CD U+59D7    
U+5C13 U+5C14    
U+5F54 U+5F55    
U+6236 U+6237 U+6238
U+63FA U+6416 U+6447
U+66A8 U+66C1    
U+69D8 U+6A23    
U+6A2A U+6A6B    
U+6B65 U+6B69    
U+7155 U+7199    
U+7D55 U+7D76    
U+7DA0 U+7DD1    
U+9AEA U+9AEE    
U+9EAA U+9EAB    
U+9EBC U+9EBD    
U+9EC3 U+9EC4    
U+9ED1 U+9ED2    

自上表發表後,WG2 亦調查過其他漢字[12],認為以下屬於基本多文種平面的漢字,亦可考慮收編到 ISO 10646 Annex S3:

[编辑] 擴展B區的問題

擴展B區使用了輔助平面來擺放漢字,以致不少文書處理軟件都不能支援。例如,Microsoft Office 2000 或之前的版本,即使電腦擁有擴展B區漢字字體,也只會顯示兩個方格。

另外,因擴展B區在整理上有缺陷,收錄了以下5個本來應該與其他漢字統一的字[13]

而在 WG2 N1155[12] 文件中,亦列出了152對可考慮統一的漢字。

[编辑] 注释

  1. ^ 這個十二個字放到兼容區不是因為和其他字同形或為異體,而是因為它們只收錄在廠商用字中,但未有收錄在官方標準(C-、T-、J-、K-Source)中。他們有獨立的形、音、義,即「獨一」(Unique),Unicode 5.0, 第 412 頁 [1]
  2. ^ http://fonts.jp/hanazono/
  3. ^ http://std.dkuug.dk/JTC1/SC2/WG2/docs/n3210.pdf
  4. ^ http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3196.pdf
  5. ^ IRG N 1306: Request to Withdraw 6545 T-Source from CJK D candidate
  6. ^ http://www.cse.cuhk.edu.hk/~irg/irg/irg28/IRGN1319A1_MoveToCJK_D.pdf
  7. ^ http://www.cse.cuhk.edu.hk/~irg/irg/irg28/IRGN1279_CJK_DVietNam.pdf
  8. ^ http://www.cse.cuhk.edu.hk/~irg/irg/irg28/IRGN1305_CJKD_24Char_TCA.pdf
  9. ^ IRGN1324 Submitted To D_China (PDF)
  10. ^ CJK Unified Ideographs: To Infinity and Beyond
  11. ^ 舊版細明體指 Windows XP 或以前版本之新細明體及細明體。
  12. ^ 12.0 12.1 http://www.cse.cuhk.edu.hk/~irg/irg/irg25/IRGN1155_Possible_Duplicates.pdf
  13. ^ http://std.dkuug.dk/JTC1/SC2/wg2/docs/n2644.pdf

[编辑] 參看

[编辑] 外部連結

Unicode 相關的條目
Unicode字符列表 | Unicode聯盟 | Unicode技術委員會 | ISO 10646(通用字符集) | UTF-7 | UTF-8 | UTF-16 / UCS-2 | UTF-32 / UCS-4
Unicode字符平面映射 | 中日韓統一表意文字 | CJKV | 表意文字小組(IRG) | IICore | 完整Unicode編碼表
个人工具
名字空间
操作
导航
帮助
工具
其他语言