本页使用了标题或全文手工转换

中日韓統一表意文字

维基百科,自由的百科全书
跳转至: 导航搜索
漢字
CJKV variant glyphs.png
“次”字在繁、简、韩、越、日汉字中的变体
字体风格
古文 · 陶文 · 甲骨文 · 金文
籀文 · 石鼓文 · 鳥蟲書
篆书大篆 · 小篆
隶书 · 楷书 · 行书 · 草书 · 书法
印刷字体风格(雕版 · 活字
仿宋体 · 宋体 · 黑体
字形
构成要素
笔画 · 笔顺 · 偏旁 · 六书 · 部首
汉字结构
合體 · 獨體
汉字规范
本字 · 石经 · 康熙字典体(舊字形)
新字形 · 通用规范汉字表
国字标准字体 · 常用字字形表
汉字文化圈
 ·  ·  ·  ·  ·  ·  ·
方言字
吴语字 · 粵語字 · 臺閩字 · 四川方言字
中文汉字简化爭論 · 简繁转换
繁体字 · 简化字 · 汉字简化方案  · 二简字
简笔字 · 异体字
日本国语国字问题
舊字體 · 新字体 · 擴張新字體
当用汉字 · 常用漢字 · 同音汉字书写规则
派生文字
则天文字 · 喃字 · 口訣 · 吏讀 · 鄉札

假名萬葉 ·  ·  · 注音符号
合文 · 女书 · 古壮字 · 僰文
方块侗字 · 岱喃字 · 傈僳竹书
契丹文大字 · 小字
女真文大字 · 小字 · 西夏文

信息技术
統一碼 · 中文输入技术 · 中文输入法
多音字 · 通假字 · 隶定字 · 古今字 · 生僻字 · 錯別字 · 提笔忘字 · 廢除漢字 · 漢字復活
查‎·论‎·
注意:本條目可能有部分字元無法顯示,若遇此情況請參看Wikipedia:Unicode擴展漢字

中日韓統一表意文字英语CJK Unified Ideographs),也稱統一漢字英语Unihan),目的是要把分別來自中文日文韓文越南文壮文中,起源相同、本義相同、形狀一樣或稍異的表意文字,賦予其在UISO 10646萬國碼標準中相同編碼

所謂「起源相同、本義相同、形狀一樣或稍異的表意文字」,主要為汉字,包括正體字簡體字日本漢字漢字/かんじ)、韓國漢字漢字/한자)、越南的喃字𡨸喃Chữ Nôm)與儒字𡨸儒Chữ Nho)、方塊壯字

此計劃原本只包含中文、日文及韓文中所使用的漢字,舊稱中日韓(CJK)統一表意文字Unified Ideographs)。後來,此計劃加入了越南文的喃字,所以合稱中日韓越(CJKV)統一表意文字。

歷史[编辑]

1978年,日本基於ISO 2022,制訂了全世界最早的漢字編碼JIS C 6226。1980年代,中國大陸、臺灣、韓國則各自制訂了自己的規範。這些規範彼此之間並無關聯。若要在一份文件中同時使用,則要以脫序字符的方式來交換。

1980年,日本的國立國會圖書館的高橋德太郎以圖書學的觀點指出,一個統一的東亞漢字編碼系統是有必要的。同年,臺灣制定了三位元組的中文資訊交換碼。偶然的是,這是第一個期望可以一致處理中國大陸、日本、臺灣漢字的編碼。之後,美國的國會圖書館採用了此規格,並另外命名為東亞編碼字符(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。

1984年,ISO的文字編碼委員會(ISO/TC 97/SC2)決議制訂出一套編碼規格(ISO 10646),是以交換文字集的方式來統一處理世界的文字。並成立了工作小組(ISO/TC 97/SC 2/ WG 2)。這個編碼一開始的構想是採用16位元,而對於日本及中國等國的漢字編碼則原封不動地加入。但若如此,中國當時所制訂的編碼都無法加入,因而反對。[來源請求]並於1989年,提出了各國的漢字統合集合(Han Character Collection,HCC)的構想。

1990年完成了ISO 10646的初版草案(DIS 10646)。漢字使用32位元來表示。並將各國的漢字編碼原封不動地加入。但中國認為,若各國各自為漢字編碼,將不利於統一處理漢字,因而反對。為了日後關於漢字編碼的討論及方針能順利進行,並呼籲WG 2特別設置了中日韓聯合研究小組(CJK-JRG,Joint Research Group,為表意文字小組的前身),以持續討論。

另一方面,1987年,全錄的Joe Becker和Lee Collins開發了統合處理全世界所有文字的統一碼。1989年發表了統一碼概要。基本為16位元。於是,中、日、韓文字統合了。基本方針為以16位元處理所有文字。 1990年,完成了基於此方針的最終草案。隔年1991年1月,大致同意此方案的企業成立了統一碼聯盟。中、日、韓中類似的漢字使用約二萬多個字。為了未來擴充,保留了三萬個漢字以供其它用途。

1991年,各國希望能以一致的方式處理文字,如統一碼這般,因而否決了ISO/IEC 10646的初版草案。基於中國與統一碼聯盟的提議,ISO 10646和統一碼成立了中日韓聯合研究小組。中日韓聯合研究小組將基於各國的漢字編碼,獨自訂定規範、制作ISO 10646和統一碼的統一漢字編碼。年尾,完成了Unified Repertoire and Ordering(URO)。

1992年,URO加入ISO 10646的第二版。但是,發現了一些缺失,之後進行了修正。

1993年5月,正式制訂了最初的中日韓統一表意文字,位於U+4E00–U+9FFF這個區域,共20,902個字。一個月後,制訂了統一碼1.1。

1999年,依據ISO/IEC 10646的第17個修正案(Amendment 17)訂定了擴充區A,於U+3400–U+4DFF加入了6,582個字。

2001年,依據ISO/IEC 10646-2,新增了擴充區B,有42,711字。位於U+20000–U+2A6FF。但因在短時間內增加了大量的漢字,導致產生了許多重複的字形。

2005年,依據ISO/IEC 10646:2003的第1個修正案(Amendment 1),基本多文種平面增加了U+9FA6到U+9FBB等22個漢字。

2009年,統一碼5.2擴充區C增加了U+2A700-U+2B734和U+9FC4~U+9FCB。

2010年,統一碼6.0擴充區D增加了U+2B740-U+2B81F。

2012年, 1字增加U+9FCC。

2015年,統一碼8.0擴充區E增加了U+2B820-U+2CEAF。

版本[编辑]

ISO 10646版本 Unicode版本 新增 置放平面 字數 累計字數
1993 1.0 中日韓統一表意文字 基本多文種平面(BMP,Basic Multilingual Plane) 20,902 20,914
位於「相容表意文字區」中但實則獨一的漢字(U+FA0E()、U+FA0F()、U+FA11()、U+FA13()、U+FA14()、U+FA1F()、U+FA21()、U+FA23()、U+FA24()、U+FA27()、U+FA28()、U+FA29([1] 基本多文種平面 12
2000 3.0 中日韓統一表意文字擴展A區 基本多文種平面 6,582 27,496
2001 3.1 中日韓統一表意文字擴展B區 第二辅助平面(SIP,Supplementary Ideographic Plane) 42,711 70,207
2003第一修訂版 4.1 HKSCS-2004中未加入ISO 10646的漢字(U+9FA6-U+9FB3)和GB 18030-2000中未加入ISO 10646的印刷業常用的偏旁和字形部件(U+9FB4-U+9FBB 基本多文種平面 22 70,229
2003第四修訂版 5.1 7個日語漢字(U+9FBC-U+9FC2龿),U+4039䀹拆分為U+4039和U+9FC3 基本多文種平面 8 70,237
2003第五修訂版 5.2 中日韓統一表意文字擴展C區 第二辅助平面 4,149 74,394
2003第六修訂版 2個日語用漢字(ARIB #47, #95,U+9FC4-U+9FC5)、1個新增漢字(ARIB #93,U+9FC6)、在HKSCS-2004推出後新增的5個香港漢字(U+9FC7-U+9FCB 基本多文種平面 8
2010 6.0 中日韓統一表意文字擴展D區(2B740-2B81F) 第二輔助平面 222 74,616
2012 6.1 1個漢字(U+9FCC 基本多文種平面 1 74,617
2015 8.0 中日韩统一表意文字扩展E区(2B820-2CEAF) 第二輔助平面 5,762 80,388
3个通用规范汉字表中的汉字(U+9FCD-U+9FCF,[2],1个从U+4CA4(䲤)分离出来的字(U+9FD0,),5个其他图书用字及化学元素用字(U+9FD1-U+9FD5, 基本多文種平面 9

成員機構[编辑]

字源[编辑]

最初期統一漢字[编辑]

最初期的統一漢字共20,941字,其範圍為:0x4E00—0x9FCC。其字源來自以下字集

類別 來源代碼 名稱 字數
中国大陆
国标源(G)
G0 GB 2312-80 6,763
G1 GB 12345-90 2,352字(含58個香港字和92個吏讀字,不包括和GB 2312重複的字)
G3 GB 7589-87繁體版本 7,237
G5 GB 7590-87繁體版本 7,039
G7 現代漢語通用字表 42字(G0, 1, 3, 5, 8未包括的字)
G8 GB 8565.2-89 290字(G0, 1, 3, 5未包括的字)
臺灣源(T) T1 CNS 11643-1986第一字面 5,401+9個計量用漢字
T2 CNS 11643-1986第二字面 7,650字
TE CNS 11643-1986第十四字面 6,319+239個中文資訊交換碼特字+10個全錄字符集(Xerox Character Code Standard,XCCS)特字
日本源(J) J0 JIS X 0208-90 6,335+非漢字1字(仝)[3]
J1 JIS X 0212-90 5,801字
韓國源(K) K0 KS C 5601-87 4,888字(含268個重見字)
K1 KS C 5657-91 2,856字
委員會源(U) KS C 5601-1987(當中重複的漢字)
美國國會圖書館之東亞字元編碼(East Asia Character Code,簡稱EACC;標準號ANSI Z39.64-1989)[2]
大五碼
中文資訊交換碼第一字面
GB 12052-89(漢字部分)
JEF(富士通標準)
中國大陸電報碼
臺灣電報碼(CCDC)
全錄中文編碼
人名用漢字准用字體表(人名用漢字許容字体表;日本)
IBM選取的日本和韓國表意文字

其中,統一碼技術委員會源(U源)是指,並非由表意文字小組所遞交的參考字集,而是委員會額外遞交作參考的字集標準。並且此來源的字集不適用字源分離原則(見稍後)。

擴展A區[编辑]

擴展A區包含有6,582個漢字,位置在U+3400—U+4DB5。這6千多個漢字分別從以下字典或字集中取得:

類別 來源代碼 名稱 字數
中国大陆
国标源(G)
G_KX 康熙字典 5357字(獨有1892字)
G_HZ 漢語大字典 5888字(獨有339字)
G3 GB 7589-87繁体版本 2391字
G5 GB 7590-87繁体版本 1226字
G7 現代漢語通用字表 120字
GS 新加坡漢字 226字
臺灣源(T) T3 CNS 11643-1992第三字面(原本為CNS 11643-1986第十四字面)新加入字符
T4 CNS 11643-1992第四字面
T5 CNS 11643-1992第五字面
T6 CNS 11643-1992第六字面
T7 CNS 11643-1992第七字面
TF CNS 11643-1992第十五字面
日本源(J) JA 日本資訊科技零售商統一當代表意文字(1993)
韓國源(K) K2 PKS C 5700-1:1994
K3 PKS C 5700-2:1994
越南源(V) V0 TCVN 5773:1993
V1 TCVN 6056:1995

擴展B區[编辑]

擴展B區包含有42,711個漢字,位置在U+20000—U+2A6D6。根據IRG N777號文件,這四萬多個漢字分別從以下字典或字集中取得:

類別 來源代碼 名稱 字數
中国大陆
国标源(G)
G_KX 《康熙字典》 18,486個未收錄漢字(包括一個在補遺篇中出現的漢字)
G_HZ 《漢語大字典》 28,914個未收錄漢字
G_CY 辭源 66個未收錄漢字
G_CH 辭海 247個未收錄漢字
G_HC 漢語大詞典 553字
G_BK 中國大百科全書 86個未收錄漢字
G_FZ 北大方正排版系统 65個未收錄漢字
G_4K 四庫全書 522個未收錄漢字
香港源(H) H 香港增補字符集(HKSCS) 1,081個未收錄漢字
臺灣源(T) T4 CNS 11643-1992第四字面
T5 CNS 11643-1992第五字面
T6 CNS 11643-1992第六字面
T7 CNS 11643-1992第七字面
TF CNS 11643-1992第十五字面
日本源(J) J3 JIS X 0213:2000, level 3
J3A JIS X 0213:2004, level 3
J4 JIS X 0213:2000, level 4
韓國源(K) K4 PKS 5700-3:1998 166個未收錄漢字
朝鮮源(KP) KP0 KPS 9566-97
KP1 KPS 10721-2000
越南源(V) V2 VHN 01:1998
V3 VHN 02:1998

這些漢字中重複的漢字有不少,所以經過整理之後,實際總數只有42,711個漢字。

另外,在U+2F800—U+2FA1D的位置,放了542個來自臺灣的兼容漢字

Unicode 4.1漢字[编辑]

為使Unicode向下兼容GB 18030和香港增補字符集(HKSCS)的所有漢字,而擴展C區又遲遲未能出籠,在Unicode 4.1版中引進了14個香港增補字符集的用字和8個GB 18030用字。該22字被編於U+9FA6—U+9FBB的位置。

另外,在U+FA70—U+FAD9的位置,放了106個來自北韓的兼容漢字。

Unicode 5.1漢字[编辑]

在2008年4月推出的Unicode 5.1版本,收錄7個由日本Adobe公司遞交的日語漢字(U+9FBC-U+9FC2)[4],和鿃(大字加兩個字,就如陝西省的陝字換上目字旁)(U+9FC3)。本來Unicode 3.0收錄了目字旁加夾(大字加兩個字)字的「䀹」(U+4039),目字旁加㚒字的字,與「䀹」無論在意義和發音均不相同,故魏安(Andrew West)和井作恆(John H. Jenkins)申請追加此字[5]

擴展C區[编辑]

於2009年10月發布的Unicode 5.2涵蓋了擴展C區,共收錄4,149個漢字,包括來自中國大陸澳門臺灣日本越南等尚未被編碼的漢字。位置在U+2A700—U+2B734。這四千多個漢字分別從以下字典或字集中取得:

類別 來源代碼 名稱 字數
中国大陆
国标源(G)
G_BK 中國大百科全書 74字
G_FZ 北京大学方正排版系统 1個未收錄漢字
G_HZ 《漢語大字典》 1個未收錄漢字
G_HC 《漢語大詞典》 14個未收錄漢字
G_GH 古代漢語詞典 50字
G_GJZ 商務印書館用字 61字
G_XC 現代漢語詞典 25字
G_CH 《辭海》 264個未收錄漢字
G_KX 《康熙字典》及補遺 6個未收錄漢字
G_CYY 中國測繪科學研究院用字 55字
G_ZFY 漢語方言大辭典 202字
G_ZJW 殷周金文集成引得 366字
臺灣源(T) TC CNS 11643-1992第12字面 634字
TD CNS 11643-1992第13字面 767字
TE CNS 11643-1992第14字面 350字
澳門源 MAC 澳門資訊系統字集(Colectânea dos Caracteres Chineses dos Sistemas Informáticos de Macau) 16字
日本源(J) JK 日本國字集(Japanese KOKUJI Collection) 367字
韓國源(K) K5 韓國表意文字小組漢字集第五版(2001,Korean IRG Hanja Character Set 5th Edition: 2001) 404字(當中主要包含古代字例)
朝鮮源(KP) KP1 KPS 10721:2003 5357字(獨有1892字)
越南源(V) V4 《喃字詞典》(Từ điển chữ Nôm)[阮光紅(Nguyễn Quang Hồng),2006]
《岱喃字字典》(Từ điển chữ Nôm TàyHoàng Triều Ân,2006)
《沔南喃字榜查》(Bảng tra chữ Nôm miền NamVũ Văn Kính,1994)
委員會源(U) ABC Chinese-English Dictionary(德范克,John DeFrancis等,第二版(1998),火奴魯魯,夏威夷大學出版社)
耶穌基督後期聖徒教會香港分會用字
Mathews' Chinese-English Dictionary(Robert H. Mathews(1975),劍橋,哈佛大學出版社)
宋本《廣韻
中國鳥類系統檢索》(鄭作新等(2000),北京,科學出版社)
段玉裁說文解字注

擴展D區[编辑]

擴展D區包含的都是所謂的「急用漢字」,合共222個新漢字,於2010年下旬發布的Unicode 6.0中,編碼範圍為U+2B740至U+2B81F(實際有字元為U+2B740至U+2B81D)。

擴展D區原本計劃放置擴展C區未收錄的16,000多個漢字,但在2007年5月,臺灣撤消了6,545個第二部分字集內私用漢字,不再使用字,原因是那些人名用字的擁有人或已去世或已移居外地[6],此後擴展D區縮減到大約10,000字左右。[7],由於各種阻礙,協議先把數量較少,又急切要收錄的漢字提交出來,就是「急用漢字」,以便和統一碼6.0.0版一起發表。提出的急用漢字只有二百二十二字(本來有二百二十三字,但中國大陸撤回其中一字)。現在文字小組把第二部分字集延後到擴充E區。

類別 來源代碼 名稱 字數
中国大陆
国标源(G)
G_CH 《辭海》 1字
G_IDC 公安部身份證系統人名和地名用字 31字
G_XC 《现代汉语词典》 4字
G_ZH 中华字海 39字
臺灣源(T) TB CNS 11643-2007第11平面24字(教育部臺語用字) 24字
日本源(J) JH 通用電子情報交換環境整備計劃(汎用電子情報交換環境整備プログラム日本經濟產業省提出的人名和地名用字) 108字
委員會源(U) Adobe-Japan1-5和Adobe-CNS1-5字體裏的異體字 15字

擴展E區[编辑]

扩展E区亦在2015年6月17日的Unicode 8.0中发布,放置于编码范围U+2B820-U+2CEAF。

扩展E区包含了扩展D区中未收录的汉字,经撤销少部分有问题的汉字后,共有5762字[8],至此,扩展C区遗留的汉字终于全部处理完毕。

类别 来源代码 名称 字数
中国大陆
国标源(G)
G_BK 中国大百科全书 15字
G_CH 《辞海》 112字
G_CY 《辞源》 3字
G_CYY 中国测绘科学院用字 98字
G_DZ 地質出版社用字 1字
G_GH 《古代汉语词典》 176字
G_HC 《汉语大词典》 7字
G_IDC 公安部身份证系统人名和地名用字 36字
G_JZ 商务印书馆用字 147字
G_KX 康熙字典 22字
G_RM 人民日報用字 3字
G_WZ 漢語大詞典出版社用字 12字
G_XC 现代汉语词典 57字
G_XH 《新華字典》 4字
G_ZFY 《汉语方言大辞典》 712字
G_ZJW 《殷周金文集成引得》 1410字
臺灣源(T) TC CNS 11643-1992第12平面323字(台湾人名用字) 323字
TD CNS 11643-1992第13平面595字(台湾人名用字) 595字
TE CNS 11643-1992第14平面339字(台湾人名用字) 339字
日本源(J) JK 日本国字集 415字
澳门源(M) MAC 澳门信息系统字集 48字
委員會源(U) UTC 从各处收集到的未收录汉字 227字
越南源(V) V4 《喃字詞典》(Từ điển chữ Nôm)[阮光紅(Nguyễn Quang Hồng),2006] 1028字
《岱喃字字典》(Từ điển chữ Nôm TàyHoàng Triều Ân,2006)
《沔南喃字榜查》(Bảng tra chữ Nôm miền NamVũ Văn Kính,1994)

急用漢字[编辑]

「急用漢字」是擴展E區整理後期,各地新發現並急於使用,又等不及放入擴展F區的字。在2015年6月的Unicode 8.0收入,位置在 U+9FCD - U+9FD5;當中中國大陸在此處申請收入三字,連同擴展E區的字,通用規範漢字表的8105字至此全部收入。

擴展F區[编辑]

扩展F区目前只有草稿,尚未彻底定稿。

  • 中國大陸計劃提交的字元有1385个汉字,有以下來源[9]
    1. 方塊壯字, 1000多個字元,
    2. 其他词典上的一些未收录汉字,占较少部分。
  • 台湾的提交被IRG拒绝[10],原因是缺少太多必要的信息,预计会推迟到扩展G区。
  • 委员会的提交同样被IRG拒绝[11],原因是提交时间晚了,并且缺少每个字的BMP图像,同样会推迟到扩展G区。
  • 日本方面,共提交1834汉字,主要来自一些在扩展E区被撤销的汉字和一些字典里的字[12]
  • 南韓方面,共提交1973个汉字,主要来源于一些古籍[13]
  • 佛經專家的貢獻(SAT項目),提交了來源大正新修大藏經的3515个汉字[14]

为方便处理起见,IRG将这次提交分割成了2个部分,其中第一部分为偏旁为「一」到「牛」的汉字及少量其他偏旁的汉字,第二部分为偏旁为「犬」到「龠」的汉字及少量其他偏旁的汉字[15],第1部分会成为扩展F区,第2部分会成为将来的扩展G区。 2014年8月18日,IRG提交了经过整理检查的第一部分的字[16],共计3803个字,编码范围为U+2CEB0-U+2DDBF,是为扩展F区。 但是2014年11月14日,SAT小组撤销了50个证据不清晰的字[17],由于其中1个字中国大陆也有提交,所以实际上是撤销了49个字。此后,又发现了11个字已有或者可以与已有字统一,就撤销了这11个字[18]。所以目前实际的码位为U+2CEB0-U+2DD7F。但是此时扩展F区在投票上出现了争议,因此被移除再议[19]。 而最近IRG打算将分割开的第一部分和第二部分重新合并为一个F区[20],将在第44次会议上讨论。

字源分離原則[编辑]

字源分離原則Source Separation Rule)是整理中日韓統一表意文字的基礎。

由於CJK各地字型多有微妙的差異,如「戶」字的第一筆,臺灣作撇「戶」、香港、中國大陸作點「户」、日本作橫「戸」,這種程度的差異,理想上是整併為一個字為佳。然而,從之前各種受挫之文字整併計劃的經驗得知,整合字集與現行通用字集(Big5國標碼)等無法一一對應,是推行整合字集的最大阻礙。

例如,日本的JIS標準同時收錄了「剣」字與「劍」字,原本JIS文件裡這兩個字可以並存,但採用整合字集後反而變成同一個字,會造成使用上的困擾。而且,如果將多個不同地區字形合併會影響閱讀者,令使用者不習慣並非以往所見字形;更有可能引致閱讀者因習慣而書寫不屬於自己地區的字形(或地區性的異體字)、學習錯誤的字形。於是,字源分離原則因而誕生。

而在不同地區而有不同寫法的部首,如「⻌(中国大陆)、⻍(港臺舊字體)、辶(港臺)」、「⺾(新字體)、卝䒑(舊字體)」、「⺥(中国大陆)、爫(港臺)」等就會交由字體處理,例如使用依中國大陸漢字標準《印刷通用漢字字形表》的字體下(如中易宋體微軟雅黑體)便會出現「⻌、⺥」;使用港臺字體標準字體下(如微軟正黑體,但舊版細明體[21])就會出現「辶、爫」等字形。大大解決了因地區而異之部首寫法。

字源分離原則是指,在上述所列出之各種字源裡,若有任何字集同時收了兩種以上的文字字形,則在Unicode中日韓統一表意文字中,也同時收錄這些字。這樣一來,現行的各種原有字集與Unicode漢字可以一一對應。

由於Unicode中日韓統一表意文字的主要訴求,就是能大幅減少Unicode收錄漢字字數,同時尊重各地的習慣字形。但字源分離原則則破壞了「只對字,而不對字形」編碼之原則,亦遭受不少批評。

統漢字資料庫[编辑]

統漢字資料庫統一碼聯盟所維護的資料庫文件。其為統漢字的每個漢字做了說明,內容包含:

  • 統一碼與各國家、地區標準及各工業標準的對應。
  • 依據重要字典(如康熙字典)的排序索引。
  • 經過編碼的異體字
  • 漢字在各種語言中的發音。
  • 英文釋義。

其資料庫透過以下幾種方式發佈:

  • 統一碼聯盟維護的網站版本[22]
  • 可供下載的txt文本文件
  • 基於上述文件開發的第三方版本。
    • libUnihan項目開發了一套可供調用的c函式庫,和一個SQLite格式的Unihan數據庫。[23]前者以LGPL協議發布,後者以MIT協議發布。

批評[编辑]

收字过少的批评[编辑]

合併同義字,雖有助減少收錄字數,但在研究學術時,如古籍、歷史及文字研究等,部份文獻確要將字形不同之字同時並列,已合併各字,變得各有各意思。學者若用Unicode,遇此情況,就要用同碼不同電腦字形,甚至要自行造字,或捨Unicode而用其他編碼。一來尋轉電腦字形不便,二來有損Unicode記錄每一個字之用意,三來不能以純文本交換。另外亦不能以Unicode準確記錄文獻,原本不同字形之字合併,原有有別義,轉Unicode而訛誤,不利於文本存於電腦。

另外,同一部件,有分有合,原則不一致。如「眞」「」分、「」「」合而「値」「」又分,令人混淆。

不同字形之字合併後,若檢索方法以字形爲本,會混亂而難以檢索。例如筆劃檢字,艸部之草花頭,中國大陸、日本計三劃,而傳統中文四劃,留有艸形則六劃。Unicode同一字碼,源於字形不同,就有幾種筆劃,檢索混亂。即使檢出字,筆劃與顯示之字亦不符。

文化上,東亞各國用字形有別,用電腦字形亦有別,在日本難以用傳統字之電腦字體,在港臺難以用日本電腦字體,故合併後,文本要顯示文化差異之字形,則大有困難。

收字过多的批评[编辑]

但是另一方面,也有批评认为Unicode收入大量错讹字及写法高度相似的同一字的不同字形本身就是不应该的。电脑文本本身永远不可能完全无损地记录文献,且文献本身也会因传抄制版等原因略有不同,如果把每个字的各种写法全部编码,不仅浪费空间,而且检索困难,写法稍有不同就无法检出,以至于检索字词时必须反复检索其不同写法,造成重复劳动,对文献研究反而是种妨碍,例如Unicode中将避讳的缺笔字也进行编码,在检索文献时,这些字无法检索出,反造成困扰。完全无损地研究、记录文献只能通过查看原本或照相影印版来完成,把无损保存转嫁给编码是错误的。

已統一漢字[编辑]

原則上ISO 10646只對(Character),而非字形(Glyph)編碼。同一字各地可使用自己的標準寫法。下例中使用HTML標示同一編碼的字在不同地區中的寫法(但只是读者的浏览器所提供的字型,未必代表該地區的標準寫法)。

例子:

Unicode 中文 日文 韓文
中國大陆 臺灣 香港
U+6236
U+623F
U+6C49
U+6E2F
U+6F22
U+76F4
U+7A97
U+89D2
U+8D77
U+9AA8

註:不是所有網頁瀏覽器均可分辨全部HTML語言代碼(Language Code)並使用不同字形。如非某一地区的使用者看到的字形和当地通用的字形一樣,表示该用户的瀏覽器不能分辨此標籤,或設定兩者以同一種字形顯示。具体情况请参考Test results: Automatic font assignment for CJK text

未統一漢字[编辑]

有些字只是同一字在不同地區的寫法,理應統一,但因為字源分離原則而只好分開編碼。值得注意的是字源分離原則由「Unicode聯盟決定把不正統的編入位於基本多文種平面的『相容表意文字區』(Compatibility Ideographs)」時起廢棄,原因是CNS中有太多字形非常接近,按Unicode標準應該統一的字。這些字只有正統的會編入正式字集(包括擴展區),不正統的編入位於「第二輔助平面」的「相容表意文字補充區」(Compatibility Ideographs Supplement)中。

範例:

自上表發表後,WG2亦調查過其他漢字[24],認為以下屬於基本多文種平面的漢字,亦可考慮收編到ISO 10646 Annex S3:

擴展B區的問題[编辑]

擴展B區使用了輔助平面來擺放漢字,以致不少文書處理軟件都不能支援。例如,Microsoft Office 2000或之前的版本,即使電腦擁有擴展B區漢字字體,也只會顯示兩個方格。

另外,因擴展B區在整理上有缺陷,收錄了以下5個本來應該與其他漢字統一的字[25]

而在WG2 N1155[24]文件中,亦列出了152對可考慮統一的漢字。

错误统一的问题[编辑]

IRG处理文字时,一向遵循对字而不是对字形编码的原则。但是有两个字被错误认为仅字形不同统一编在同一个编码之中,此字编码为U+2827C,2014年5月有人指出了这个问题[26]

编码 台湾源(TF-6127) 香港源(H-8BAE)
U+2827C 𨉼 𨉼

当惡和悪作为部件时是不应该统一的,因为惡和悪的繁简性质不同。相关的规定中也并未提及惡和悪作为部件应当统一,况且𫫖和噁是分开编码的。U+2827C的台湾源读è,是人名用字,香港源读wù,意为“鞠躬”。二者读音和意义都不一样。
但是当IRG收到这个问题后,认为应当保持统一[27],原因是“标准最重要的目的是为产业服务,制定标准是工程而非学术,因而难以做到高度精确,也没有必要高度精确(成本难以承受)”。因此这两个字仍然在同一编码之中。但是无论如何,这两个字都是绝对没有理由统一的,这也是IRG目前唯一保持错误统一的案例。

注释[编辑]

  1. ^ 這個十二個字放到兼容區不是因為和其他字同形或為異體,而是因為它們只收錄在廠商用字中,但未有收錄在官方標準(C-、T-、J-、K-Source)中。他們有獨立的形、音、義,即「獨一」(Unique),Unicode 6.1,第410-411頁[1]
  2. ^ 通用規範漢字表的8105字至此全部收入
  3. ^ http://fonts.jp/hanazono/
  4. ^ http://std.dkuug.dk/JTC1/SC2/WG2/docs/n3210.pdf
  5. ^ http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3196.pdf
  6. ^ IRG N 1306: Request to Withdraw 6545 T-Source from CJK D candidate
  7. ^ http://www.cse.cuhk.edu.hk/~irg/irg/irg28/IRGN1319A1_MoveToCJK_D.pdf
  8. ^ http://www.unicode.org/charts/PDF/U2B820.pdf
  9. ^ http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg39/IRGN1886P1_China_CJK_F_Submission.zip
  10. ^ http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg39/IRGN1896CJK_EditorialReport.doc
  11. ^ http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg39/IRGN1896CJK_EditorialReport.doc
  12. ^ http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg39/IRGN1882JapanFSubmission.pdf
  13. ^ http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg39/IRGN1887New_11R_K_F_sub_form.xlsx
  14. ^ http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg39/IRGN1883SAT_F_Submission.pdf
  15. ^ http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg40/IRGN1944CJKF_EditorialReportIRG40.doc
  16. ^ http://www.unicode.org/L2/L2014/14248-n4580SummaryForm.pdf
  17. ^ http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg43/IRGN2041_SAT_dropping_list.pdf
  18. ^ http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg43/IRGN2042_CJK_F1Report.pdf
  19. ^ http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg43/IRGN2055wg2n4656pDam2_2.pdf
  20. ^ http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg44/IRGN2055MichelFeedback.txt
  21. ^ 舊版細明體指Windows XP或以前版本之新細明體及細明體。
  22. ^ 統漢字資料庫. 統一碼聯盟. [2009-05-04]. 
  23. ^ libUnihan主頁. libUnihan. [2009-05-04]. 
  24. ^ 24.0 24.1 http://www.cse.cuhk.edu.hk/~irg/irg/irg25/IRGN1155_Possible_Duplicates.pdf
  25. ^ http://std.dkuug.dk/JTC1/SC2/wg2/docs/n2644.pdf
  26. ^ http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg42/IRGN2015_U2827Cunificationissue.pdf
  27. ^ http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg42/IRGN2013MiscEditorialReport.pdf ,第5条

參看[编辑]

外部連結[编辑]