本頁使用了標題或全文手工轉換

中日韓統一表意文字

維基百科,自由的百科全書
前往: 導覽搜尋
注意:本頁面含有Unihan新版用字。有關字元可能會錯誤顯示,詳見Unicode擴展漢字

中日韓統一表意文字英語:CJK Unified Ideographs),也稱統一漢字英語:Unihan),目的是要把分別來自中文日文韓文越南文壯文中,起源相同、本義相同、形狀一樣或稍異的表意文字[需要消歧義],賦予其在UISO 10646萬國碼標準中相同編碼

所謂「起源相同、本義相同、形狀一樣或稍異的表意文字」,主要為漢字,包括正體字簡體字日本漢字漢字/かんじ)、韓國漢字漢字/한자)、越南的喃字𡨸喃Chữ Nôm)與儒字𡨸儒Chữ Nho)、方塊壯字

此計劃原本只包含中文、日文及韓文中所使用的漢字,舊稱中日韓(CJK)統一表意文字Unified Ideographs)。後來,此計劃加入了越南文的喃字,所以合稱中日韓越(CJKV)統一表意文字。

歷史[編輯]

1978年,日本基於ISO 2022,制訂了全世界最早的漢字編碼JIS C 6226。1980年代,中國大陸、臺灣、韓國則各自製訂了自己的規範。這些規範彼此之間並無關聯。若要在一份文件中同時使用,則要以脫序字符的方式來交換。

1980年,日本的國立國會圖書館的高橋德太郎以圖書學的觀點指出,一個統一的東亞漢字編碼系統是有必要的。同年,臺灣制定了三位元組的中文資訊交換碼。偶然的是,這是第一個期望可以一致處理中國、日本、韓國漢字的編碼。之後,美國的國會圖書館採用了此規格,並另外命名為東亞編碼字符(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。

1984年,ISO的文字編碼委員會(ISO/TC 97/SC2)決議制訂出一套編碼規格(ISO 10646),是以交換文字集的方式來統一處理世界的文字。並成立了工作小組(ISO/TC 97/SC 2/ WG 2)。這個編碼一開始的構想是採用16位元,而對於日本及中國等國的漢字編碼則原封不動地加入。但若如此,中國當時所制訂的編碼都無法加入,因而反對。並於1989年,提出了各國的漢字統合集合(Han Character Collection,HCC)的構想。

1990年完成了ISO 10646的初版草案(DIS 10646)。漢字使用32位元來表示。並將各國的漢字編碼原封不動地加入。但中國認為,若各國各自為漢字編碼,將不利於統一處理漢字,因而反對。為了日後關於漢字編碼的討論及方針能順利進行,並呼籲WG 2特別設置了中日韓聯合研究小組(CJK-JRG,Joint Research Group,為表意文字小組的前身),以持續討論。

另一方面,1987年,全錄的Joe Becker和Lee Collins開發了統合處理全世界所有文字的統一碼。1989年發表了統一碼概要。基本為16位元。於是,中、日、韓文字統合了。基本方針為以16位元處理所有文字。 1990年,完成了基於此方針的最終草案。隔年1991年1月,大致同意此方案的企業成立了統一碼聯盟。中、日、韓中類似的漢字使用約二萬多個字。為了未來擴充,保留了三萬個漢字以供其它用途。

1991年,各國希望能以一致的方式處理文字,如統一碼這般,因而否決了ISO/IEC 10646的初版草案。基於中國與統一碼聯盟的提議,ISO 10646和統一碼成立了中日韓聯合研究小組。中日韓聯合研究小組將基於各國的漢字編碼,獨自訂定規範、製作ISO 10646和統一碼的統一漢字編碼。年尾,完成了Unified Repertoire and Ordering(URO)。

1992年,URO加入ISO 10646的第二版。但是,發現了一些缺失,之後進行了修正。

1993年5月,正式制訂了最初的中日韓統一表意文字,位於U+4E00–U+9FFF這個區域,共20,902個字。一個月後,制訂了統一碼1.1。

1999年,依據ISO/IEC 10646的第17個修正案(Amendment 17)訂定了擴展區A,於U+3400–U+4DFF加入了6,582個字。

2001年,依據ISO/IEC 10646-2,新增了擴充區B,有42,711字。位於U+20000–U+2A6FF。但因在短時間內增加了大量的漢字,導致產生了許多重複的字形。

2005年,依據ISO/IEC 10646:2003的第1個修正案(Amendment 1),基本多文種平面增加了U+9FA6到U+9FBB等22個漢字。

2009年,統一碼5.2擴展區C增加了U+2A700–U+2B734和基本多文種平面增加了U+9FC4–U+9FCB。

2010年,統一碼6.0擴展區D增加了U+2B740–U+2B81F。

2012年, 1字增加U+9FCC。

2015年,統一碼8.0擴展區E增加了U+2B820–U+2CEAF和基本多文種平面增加了U+9FCD–U+9FD5。

2017年,統一碼10.0擴展區F增加了U+2CEB0–U+2EBEF和基本多文種平面增加了U+9FD6–U+9FEA。

版本[編輯]

ISO 10646版本 Unicode版本 新增 置放平面 字數 累計字數
1993 1.0 中日韓統一表意文字 基本多文種平面(BMP,Basic Multilingual Plane) 20,902 20,914
位於「相容表意文字區」中但實則獨一的漢字(U+FA0E()、U+FA0F()、U+FA11()、U+FA13()、U+FA14()、U+FA1F()、U+FA21()、U+FA23()、U+FA24()、U+FA27()、U+FA28()、U+FA29([註 1] 基本多文種平面 12
2000 3.0 中日韓統一表意文字擴展A區 基本多文種平面 6,582 27,496
2001 3.1 中日韓統一表意文字擴展B區 第二輔助平面(SIP,Supplementary Ideographic Plane) 42,711 70,207
2003第一修訂版 4.1 HKSCS-2004中未加入ISO 10646的漢字(U+9FA6-U+9FB3)和GB 18030-2000中未加入ISO 10646的印刷業常用的偏旁和字形部件(U+9FB4-U+9FBB 基本多文種平面 22 70,229
2003第四修訂版 5.1 7個日語漢字(U+9FBC-U+9FC2龿),U+4039䀹拆分為U+4039和U+9FC3 基本多文種平面 8 70,237
2003第五修訂版 5.2 中日韓統一表意文字擴展C區 第二輔助平面 4,149 74,394
2003第六修訂版 2個日語用漢字(ARIB #47, #95,U+9FC4-U+9FC5)、1個新增漢字(ARIB #93,U+9FC6)、在HKSCS-2004推出後新增的5個香港漢字(U+9FC7-U+9FCB 基本多文種平面 8
2010 6.0 中日韓統一表意文字擴展D區(2B740-2B81F) 第二輔助平面 222 74,616
2012 6.1 1個漢字(U+9FCC 基本多文種平面 1 74,617
2015 8.0 中日韓統一表意文字擴展E區(2B820-2CEAF) 第二輔助平面 5,762 80,388
「急用漢字」:3個《通用規範漢字表》中的漢字(U+9FCD-U+9FCF,[註 2],1個從U+4CA4()分離出來的字(U+9FD0,),5個其他圖書用字及化學元素用字(U+9FD1-U+9FD5, 基本多文種平面 9
2017 10.0 中日韓統一表意文字擴展F區(2CEB0-2EBEF) 第二輔助平面 7,473 87,882
21個 漢字(U+9FD6-U+9FEA) 基本多文種平面 21

成員機構[編輯]

字源[編輯]

最初期統一漢字[編輯]

最初期的統一漢字共20,902字,其範圍為:0x4E00—0x9FA5。其字源來自以下字集

類別 來源代碼 名稱 字數
中國大陸
國標源(G)
G0 GB 2312-80 6,763
G1 GB 12345-90 2,352字(含58個香港字和92個吏讀字,不包括和GB 2312重複的字)
G3 GB 7589-87 繁體版本 7,237
G5 GB 7590-87 繁體版本 7,039
G7 現代漢語通用字表 42字(G0, 1, 3, 5, 8未包括的字)
G8 GB 8565.2-89 290字(G0, 1, 3, 5未包括的字)
臺灣源(T) T1 CNS 11643-1986第一字面 5,401+9個計量用漢字
T2 CNS 11643-1986第二字面 7,650字
TE CNS 11643-1986第十四字面 6,319+239個中文資訊交換碼特字+10個全錄字符集(Xerox Character Code Standard,XCCS)特字
日本源(J) J0 JIS X 0208-90 6,335+非漢字1字(仝)[2]
J1 JIS X 0212-90 5,801字
韓國源(K) K0 KS C 5601-87 4,888字(含268個重見字)
K1 KS C 5657-91 2,856字
委員會源(U) KS C 5601-1987(當中重複的漢字)
美國國會圖書館之東亞字元編碼(East Asia Character Code,簡稱EACC;標準號ANSI Z39.64-1989)[3]
大五碼
中文資訊交換碼第一字面
GB 12052-89(漢字部分)
JEF(富士通標準)
中國大陸電報碼
臺灣電報碼(CCDC)
全錄中文編碼
人名用漢字准用字體表(人名用漢字許容字體表;日本)
IBM選取的日本和韓國表意文字

其中,統一碼技術委員會源(U源)是指,並非由表意文字小組所遞交的參考字集,而是委員會額外遞交作參考的字集標準。並且此來源的字集不適用字源分離原則(見稍後)。

擴展A區[編輯]

擴展A區包含有6,582個漢字,位置在U+3400—U+4DB5。這6千多個漢字分別從以下字典或字集中取得:

類別 來源代碼 名稱 字數
中國
國標源(G)
G_KX 康熙字典 5357字(獨有1892字)
G_HZ 漢語大字典 5888字(獨有339字)
G3 GB 7589-87繁體版本 2391字
G5 GB 7590-87繁體版本 1226字
G7 現代漢語通用字表 120字
GS 新加坡漢字 226字
臺灣源(T) T3 CNS 11643-1992第三字面(原本為CNS 11643-1986第十四字面)新加入字符 2178字
T4 CNS 11643-1992第四字面 2917字
T5 CNS 11643-1992第五字面 395字
T6 CNS 11643-1992第六字面 197字
T7 CNS 11643-1992第七字面 133字
TF CNS 11643-1992第十五字面 86字
日本源(J) JA 日本資訊科技零售商統一當代表意文字(1993) 574字
韓國源(K) K2 PKS C 5700-1:1994
K3 PKS C 5700-2:1994 1834字
越南源(V) V0 TCVN 5773:1993 138字
V1 TCVN 6056:1995

擴展B區[編輯]

擴展B區包含有42,711個漢字,位置在U+20000—U+2A6D6。根據IRG N777號文件,這四萬多個漢字分別從以下字典或字集中取得:

類別 來源代碼 名稱 字數
中國
國標源(G)
G_KX 《康熙字典》 18,486個未收錄的漢字(包括一個在補遺篇中出現的漢字)
G_HZ 《漢語大字典》 28,914個未收錄的漢字
G_CY 辭源 66個未收錄的漢字
G_CH 辭海 247個未收錄的漢字
G_HC 漢語大詞典 553字
G_BK 中國大百科全書 86個未收錄的漢字
G_FZ 北大方正排版系統 65個未收錄的漢字
G_4K 四庫全書 522個未收錄的漢字
香港源(H) H 香港增補字符集(HKSCS) 1,081個未收錄的漢字
臺灣源(T) T4 CNS 11643-1992第四字面 3,408個未收錄的漢字
T5 CNS 11643-1992第五字面 8,111個未收錄的漢字
T6 CNS 11643-1992第六字面 5,934個未收錄的漢字
T7 CNS 11643-1992第七字面 6,299個未收錄的漢字
TF CNS 11643-1992第十五字面 6,401個未收錄的漢字
日本源(J) J3 JIS X 0213:2000, level 3 25個未收錄的漢字
J3A JIS X 0213:2004, level 3 1個未收錄的漢字
J4 JIS X 0213:2000, level 4 277個未收錄的漢字
韓國源(K) K4 PKS 5700-3:1998 166個未收錄的漢字
朝鮮源(KP) KP0 KPS 9566-97
KP1 KPS 10721-2000 5,766個未收錄的漢字
越南源(V) V2 VHN 01:1998 2,290個未收錄的漢字
V3 VHN 02:1998 425個未收錄的漢字

這些漢字中重複的漢字有不少,所以經過整理之後,實際總數只有42,711個漢字。

另外,在U+2F800—U+2FA1D的位置,放了542個來自臺灣的兼容漢字

Unicode 4.1漢字[編輯]

為使Unicode向下兼容GB 18030和香港增補字符集(HKSCS)的所有漢字,而擴展C區又遲遲未能出籠,在Unicode 4.1版中引進了14個香港增補字符集的用字和8個GB 18030用字。該22字被編於U+9FA6—U+9FBB的位置。

另外,在U+FA70—U+FAD9的位置,放了106個來自北韓的兼容漢字。

Unicode 5.1漢字[編輯]

在2008年4月推出的Unicode 5.1版本,收錄7個由日本Adobe公司遞交的日語漢字(U+9FBC-U+9FC2)[4],和鿃(大字加兩個字,就如陝西省的陝字換上目字旁)(U+9FC3)。本來Unicode 3.0收錄了目字旁加夾(大字加兩個字)字的「䀹」(U+4039),目字旁加㚒字的字,與「䀹」無論在意義和發音均不相同,故魏安(Andrew West)和井作恆(John H. Jenkins)申請追加此字[5]

擴展C區[編輯]

於2009年10月發布的Unicode 5.2涵蓋了擴展C區,共收錄4,149個漢字,包括來自中國大陸澳門臺灣日本越南等尚未被編碼的漢字。位置在U+2A700—U+2B734。這四千多個漢字分別從以下字典或字集中取得:

類別 來源代碼 名稱 字數
中國
國標源(G)
G_BK 中國大百科全書 74字
G_FZ 北京大學方正排版系統 1個未收錄的漢字
G_HZ 《漢語大字典》 1個未收錄的漢字
G_HC 《漢語大詞典》 14個未收錄的漢字
G_GH 古代漢語詞典 50字
G_GJZ 商務印書館用字 61字
G_XC 現代漢語詞典 25字
G_CH 《辭海》 264個未收錄的漢字
G_KX 《康熙字典》及補遺 6個未收錄的漢字
G_CYY 中國測繪科學研究院用字 55字
G_ZFY 漢語方言大辭典 202字
G_ZJW 殷周金文集成引得 366字
臺灣源(T) TC CNS 11643-1992第12字面 634字
TD CNS 11643-1992第13字面 767字
TE CNS 11643-1992第14字面 350字
澳門源 MAC 澳門資訊系統字集(Colectânea dos Caracteres Chineses dos Sistemas Informáticos de Macau) 16字
日本源(J) JK 日本國字集(Japanese KOKUJI Collection) 367字
韓國源(K) K5 韓國表意文字小組漢字集第五版(2001,Korean IRG Hanja Character Set 5th Edition: 2001) 404字(當中主要包含古代字例)
朝鮮源(KP) KP1 KPS 10721:2003 5357字(獨有1892字)
越南源(V) V4 《喃字詞典》(Từ điển chữ Nôm)[阮光紅(Nguyễn Quang Hồng),2006]
《岱喃字字典》(Từ điển chữ Nôm TàyHoàng Triều Ân,2006)
《沔南喃字榜查》(Bảng tra chữ Nôm miền NamVũ Văn Kính,1994)
委員會源(U) ABC Chinese-English Dictionary(德范克,John DeFrancis等,第二版(1998),火奴魯魯,夏威夷大學出版社)
耶穌基督後期聖徒教會香港分會用字
Mathews' Chinese-English Dictionary(Robert H. Mathews(1975),劍橋,哈佛大學出版社)
宋本《廣韻
中國鳥類系統檢索》(鄭作新等(2000),北京,科學出版社)
段玉裁說文解字注

擴展D區[編輯]

擴展D區包含的都是所謂的「急用漢字」,合共222個新漢字,於2010年下旬發布的Unicode 6.0中,編碼範圍為U+2B740至U+2B81F(實際有字元為U+2B740至U+2B81D)。

擴展D區原本計劃放置擴展C區未收錄的16,000多個漢字,但在2007年5月,臺灣撤消了6,545個第二部分字集內私用漢字,不再使用字,原因是那些人名用字的擁有人或已去世或已移居外地[6],此後擴展D區縮減到大約10,000字左右。[7],由於各種阻礙,協議先把數量較少,又急切要收錄的漢字提交出來,就是「急用漢字」,以便和統一碼6.0.0版一起發表。提出的急用漢字只有二百二十二字(本來有二百二十三字,但日本撤回其中一字)。現在文字小組把第二部分字集延後到擴充E區。

類別 來源代碼 名稱 字數
中國
國標源(G)
G_CH 《辭海》 1字
G_IDC 公安部身份證系統人名和地名用字 31字
G_XC 《現代漢語詞典》 4字
G_ZH 中華字海 39字
臺灣源(T) TB CNS 11643-2007第11平面24字(教育部臺語用字) 24字
日本源(J) JH 通用電子情報交換環境整備計劃(汎用電子情報交換環境整備プログラム日本經濟產業省提出的人名和地名用字) 108字
委員會源(U) Adobe-Japan1-5和Adobe-CNS1-5字體裏的異體字 15字

擴展E區[編輯]

擴展E區亦在2015年6月17日的Unicode 8.0中發布,放置於編碼範圍U+2B820--U+2CEAF。

擴展E區本應包含擴展D區中未收錄的10000多個漢字,但在2008年11月,中國大陸以「難以逐個找證據」為理由,撤銷了3215個漢字[8],這些漢字主要用於地名、人名、姓氏,亦有數百個《中國大百科全書》中的文字。這是繼台灣撤銷6545字之後的又一次大規模撤銷。之後又經過長時間的檢查處理,E區最終定稿,共有5762字[9]
這些漢字來源如下:

類別 來源代碼 名稱 字數
中國
國標源(G)
G_BK 中國大百科全書 15字
G_CH 《辭海》 112字
G_CY 《辭源》 3字
G_CYY 中國測繪科學院用字(地名用字) 98字
G_DZ 地質出版社用字 1字
G_GH 《古代漢語詞典》 176字
G_HC 《漢語大詞典》 7字
G_IDC 公安部身份證系統人名和地名用字 36字
G_JZ 商務印書館用字 147字
G_KX 康熙字典 22字
G_RM 人民日報用字 3字
G_WZ 漢語大詞典出版社用字 12字
G_XC 現代漢語詞典 57字
G_XH 《新華字典》 4字
G_ZFY 《漢語方言大辭典》 712字
G_ZJW 《殷周金文集成引得》 1410字
臺灣源(T) TC CNS 11643-1992第12平面323字(台灣人名用字) 323字
TD CNS 11643-1992第13平面595字(台灣人名用字) 595字
TE CNS 11643-1992第14平面339字(台灣人名用字) 339字
日本源(J) JK 日本國字集 415字
澳門源(M) MAC 澳門信息系統字集 48字
委員會源(U) UTC 從各處收集到的未收錄漢字 227字
越南源(V) V4 《喃字詞典》(Từ điển chữ Nôm)[阮光紅(Nguyễn Quang Hồng),2006] 1028字
《岱喃字字典》(Từ điển chữ Nôm TàyHoàng Triều Ân,2006)
《沔南喃字榜查》(Bảng tra chữ Nôm miền NamVũ Văn Kính,1994)

急用漢字[編輯]

「急用漢字」是擴展E區整理後期,各地新發現並急於使用,又等不及放入擴展F區的字;和擴展E區一起收入 Unicode 8.0,位置在 U+9FCD - U+9FD5;當中中國在此處申請收入三字,連同擴展E區的字,通用規範漢字表的8105字至此全部收入。

擴展F區[編輯]

擴展F區在2017年6月20日的Unicode 10.0中發布,編碼範圍為U+2CEB0--U+2EBEF。
擴展F區來源於新提交的一批漢字,主要包括一千多個方塊壯字及數千個佛經、古籍中的用字以及日本戶籍用字,共有7473字。
這些漢字的來源如下:

類別 來源代碼 名稱 字數
中國
國標源(G)
G_CY 《辭源》 122字
G_FC 現代漢語規範詞典 27字
G_IDC 公安部身份證用字 1字
G_LGYJ 壯族嘹歌研究 1字
G_OCD 牛津英漢漢英詞典 2字
G_PGLG 《壯族民歌文化叢書·平果嘹歌》 70字
G_XHZ 新華大字典 51字
G_Z 古壯字字典 995字
G_ZJW 《殷周金文集成引得》 33字
G_ZYS 《壯族人民的文化遺產——方塊壯字》《中國民族古文字研究》 2字
日本源(J) JMJ 日本文字信息基礎工程 1645字
韓國源(K) KC 韓國歷史信息中心 1793字
澳門源(M) MAC 澳門信息系統字集 22字
大藏經研究組(SAT) USAT 大正新修大藏經 2884字
委員會源(U) UTC 從各處收集到的未收錄漢字 1字

字源分離原則[編輯]

「字源分離原則」(Source Separation Rule)是整理中日韓統一表意文字的基礎。

由於CJK各地字型多有微妙的差異,如「戶」字的第一筆,臺灣作撇「戶」、香港、中國大陸作點「户」、日本作橫「戸」,這種程度的差異,理想上是整併為一個字為佳。然而,從之前各種受挫之文字整併計劃的經驗得知,整合字集與現行通用字集(Big5國標碼)等無法一一對應,是推行整合字集的最大阻礙。

例如,日本的JIS標準同時收錄了「剣」字與「劍」字,原本JIS文件裡這兩個字可以並存,但採用整合字集後反而變成同一個字,會造成使用上的困擾。而且,如果將多個不同地區字形合併會影響閱讀者,令使用者不習慣並非以往所見字形;更有可能引致閱讀者因習慣而書寫不屬於自己地區的字形(或地區性的異體字)、學習錯誤的字形。於是,字源分離原則因而誕生。

而在不同地區而有不同寫法的部首,如「⻌(中國大陸)、⻍(港臺舊字體)、辶(港臺)」、「⺾(新字體)、卝䒑(舊字體)」、「爫(中國大陸)、⺥(港臺)」等就會交由字體處理,例如使用依中國大陸漢字標準《印刷通用漢字字形表》的字體下(如中易宋體微軟雅黑體)便會出現「⻌、⺥」;使用港臺字體標準字體下(如微軟正黑體,但舊版細明體[註 3])就會出現「辶、爫」等字形。大大解決了因地區而異之部首寫法。

字源分離原則是指,在上述所列出之各種字源裡,若有任何字集同時收了兩種以上的文字字形,則在Unicode中日韓統一表意文字中,也同時收錄這些字。這樣一來,現行的各種原有字集與Unicode漢字可以一一對應。

由於Unicode中日韓統一表意文字的主要訴求,就是能大幅減少Unicode收錄漢字字數,同時尊重各地的習慣字形。但字源分離原則則破壞了「只對字,而不對字形」編碼之原則,亦遭受不少批評。後來的一些重複漢字會使用「兼容區」提供暫存編碼,可通過歸一化(normalization)步驟移除。

統漢字資料庫[編輯]

統漢字資料庫統一碼聯盟所維護的資料庫文件。其為統漢字的每個漢字做了說明,內容包含:

  • 統一碼與各國家、地區標準及各工業標準的對應。
  • 依據重要字典(如康熙字典)的排序索引。
  • 經過編碼的異體字
  • 漢字在各種語言中的發音。
  • 英文釋義。

其資料庫透過以下幾種方式發佈:

  • 統一碼聯盟維護的網站版本[10]
  • 可供下載的txt文本文件
  • 基於上述文件開發的第三方版本。
    • libUnihan項目開發了一套可供調用的c函式庫,和一個SQLite格式的Unihan數據庫。[11]前者以LGPL協議發布,後者以MIT協議發布。

批評[編輯]

收字過少的批評[編輯]

合併同義字,雖有助減少收錄字數,但在研究學術時,如古籍、歷史及文字研究等,部份文獻確要將字形不同之字同時並列,已合併各字,變得各有各意思。學者若用Unicode,遇此情況,就要用同碼不同電腦字形,甚至要自行造字,或捨Unicode而用其他編碼。一來尋轉電腦字形不便,二來有損Unicode記錄每一個字之用意,三來不能以純文本交換。另外亦不能以Unicode準確記錄文獻,原本不同字形之字合併,原有有別義,轉Unicode而訛誤,不利於文本存於電腦。

另外,同一部件,有分有合,原則不一致。如「眞」「」分、「」「」合而「値」「」又分,令人混淆。

不同字形之字合併後,若檢索方法以字形爲本,會混亂而難以檢索。例如筆劃檢字,艸部之草花頭,中國、日本計三劃,而傳統中文四劃,留有艸形則六劃。Unicode同一字碼,源於字形不同,就有幾種筆劃,檢索混亂。即使檢出字,筆劃與顯示之字亦不符。

文化上,東亞各國用字形有別,用電腦字形亦有別,在日本難以用傳統字之電腦字體,在港臺難以用日本電腦字體,故合併後,文本要顯示文化差異之字形,則大有困難。

收字過多的批評[編輯]

但是另一方面,也有批評認為Unicode收入大量錯訛字及寫法高度相似的同一字的不同字形本身就是不應該的。電腦文本本身永遠不可能完全無損地記錄文獻,且文獻本身也會因傳抄製版等原因略有不同,如果把每個字的各種寫法全部編碼,不僅浪費空間,而且檢索困難,寫法稍有不同就無法檢出,以至於檢索字詞時必須反覆檢索其不同寫法,造成重複勞動,對文獻研究反而是種妨礙,例如Unicode中將避諱的缺筆字也進行編碼,在檢索文獻時,這些字無法檢索出,反造成困擾。完全無損地研究、記錄文獻只能通過查看原本或照相影印版來完成,把無損保存轉嫁給編碼是錯誤的。

已統一漢字[編輯]

原則上ISO 10646只對(Character),而非字形(Glyph)編碼。同一字各地可使用自己的標準寫法。以下使用HTML標示同一編碼的字在不同地區的寫法(但只是讀者的瀏覽器所提供的字型,未必代表該地區的標準寫法)。

例子
Unicode 中文 日文 韓文 越文
中國大陸 臺灣 香港
U+623F
U+6C49 [註 4]
U+6E2F
U+6F22
U+76F4
U+7A97
U+89D2
U+8AA4
U+8BEF [註 4]
U+8D77
U+9AA8

註:不是所有網頁瀏覽器均可分辨全部HTML語言代碼(Language Code)並使用不同字形。如非某一地區的使用者看到的字形和當地通用的字形一樣,表示該用戶的瀏覽器不能分辨此標籤,或設定兩者以同一種字形顯示。具體情況請參考Test results: Automatic font assignment for CJK text

未統一漢字[編輯]

有些字只是同一字在不同地區的寫法,理應統一,但因為字源分離原則而只好分開編碼。由於KS X 1001、Big5、IBM 32、JIS X 0213、ARIB STD-B24、KPS 10721、CNS 11643中有太多字形非常接近,按Unicode標準應該統一,但是從編碼上分離的字。這些字只有正統的會編入正式字集(包括擴展區),不正統的編入「相容表意文字區」(Compatibility Ideographs)和位於「第二輔助平面」的「相容表意文字補充區」(Compatibility Ideographs Supplement)中。

範例:

Unicode Unicode Unicode
U+4E1F U+4E22
U+514C U+5151
U+518A U+518C
U+5433 U+5434 U+5449
U+543F U+544A
U+5965 U+5967
U+5968 U+596C U+734E
U+5986 U+599D
U+59CD U+59D7
U+5C13 U+5C14
U+5F54 U+5F55
U+6236 U+6237 U+6238
U+63FA U+6416 U+6447
U+66A8 U+66C1
U+69D8 U+6A23
U+6A2A U+6A6B
U+6B65 U+6B69
U+7155 U+7199
U+7D55 U+7D76
U+7DA0 U+7DD1
U+9AEA U+9AEE
U+9EAA U+9EAB
U+9EBC U+9EBD
U+9EC3 U+9EC4
U+9ED1 U+9ED2

自上表發表後,WG2亦調查過其他漢字[12],認為另一批屬於基本多文種平面的漢字,亦可考慮收編到ISO 10646 Annex S3

技術問題[編輯]

擴展B區的問題[編輯]

擴展B區使用了輔助平面來擺放漢字,以致不少文書處理軟件都不能支援。例如,Microsoft Office 2000或之前的版本,即使電腦擁有擴展B區漢字字體,也只會顯示兩個方格。

另外,因擴展B區在整理上有缺陷,收錄了以下5個本來應該與其他漢字統一的字[13]

而在WG2 N1155[12]文件中,亦列出了152對可考慮統一的漢字。

錯誤統一的問題[編輯]

表意文字小組(IRG)處理文字時,遵循對字而不是對字形編碼的原則。但是有的字被錯誤統一編在同一個編碼之中,如編碼為U+2827C的漢字。2014年5月有人指出了這個問題[14]

編碼 台灣源(TF-6127) 香港源(H-8BAE)
U+2827C 𨉼 𨉼

當惡和悪作為部件時是不應該統一的,因為惡和悪的繁簡性質不同。相關的規定中也並未提及惡和悪作為部件應當統一,況且𫫖和噁是分開編碼的。

但是當表意文字小組(IRG)收到這個問題後,認為應當保持統一[15]。因此這兩個字仍然在同一編碼之中。

注釋[編輯]

  1. ^ 這12個字放到兼容區不是因為和其他字同形或為異體,而是因為它們只收錄在廠商用字中,但未有收錄在官方標準(C-、T-、J-、K-Source)中。他們有獨立的形、音、義,即「獨一」(unique)[1]
  2. ^ 通用規範漢字表》中的8105字至此全部收入。
  3. ^ 舊版「細明體」指Windows XP或以前版本之新細明體細明體
  4. ^ 4.0 4.1 某些碼位原來只有個別地區的字,但其他地區為兼容國際標準,逐漸將所有碼位的字亦納入其國家標準。

參考文獻[編輯]

外部連結[編輯]

Unicode(統一碼)
ISO表意文字工作組

參見[編輯]