CJKV

维基百科,自由的百科全书
跳转到: 导航, 搜索

CJKV,是漢語(Chinese)、日語(Japanese)、韓語(Korean)、越南語(Vietnamese)的集合名詞,其也組成了主要的東亞語言CJKV這名詞主要應用於軟體產業與國際化與本地化領域。

CJKV的順序是拉丁字母順序。在越南語加入之前,舊稱CJK(即中韓日用字)。對於較早廢止漢字,而曾使用過漢字及本民族類漢字文字—喃字越南語方塊文字進入CJKV編碼較晚。用語的使用頻度以CJK較多。不過,隨着越文漢字、喃字加入該計劃,CJKV的稱呼開始使用。

中韓日越這四個語言中皆有共同的特色,即其文字皆完全或部份的使用了漢字,即中文的漢字、中國少數民族的表意文字,如部分方塊壯字日文漢字(かんじ / kanji)、韓文漢字(한자 / hanja)、越南的喃字Chữ Nôm)、越文漢字Chữ Nho,在越南也稱作儒字)。漢字在中文裏是唯一的文字系統,在一般的文書中常用字約為四千字(據統計,1000個常用字能覆蓋約92%的書面資料,2000字可覆蓋98%以上,3000字時已到99%),字數總數則多達四萬字以上(清朝康熙字典》收字47,035個、民國中華大字典》收字49,905個、《漢語大字典》收字54,678個、《中華字海》收字85,568個)。日文漢字的數量則少了許多,在一般的文書中常用的漢字約為二千字左右。在韓語裏漢字則有越來越罕用的趨勢(可參見漢字廢止主題)。

中韓日越所使用的這些漢字總數,使用僅能呈現256字元的八位元字元編碼系統自然是不足,至少必須使用十六位元固定寬度的字元編碼、或是多位元可變長度的字元編碼系統才能包含所有的漢字數量。十六位元固定寬度的字元編碼(例如 Unicode 2.0 以及 2.0 之前的版本)目前已不再採用,取而代之的是可以包含更多的漢字的編碼方式,例如 Unicode 5.0 包含了多達7萬多的漢字,以及中華人民共和國政府現今所使用的GB18030字集。

即使中日越韓的編碼具有共通的字集,然而用以呈現這些字集的常用編碼方式是由各國政府以及軟體公司所各自獨立發展,並且彼此間並不相容。Unicode嘗試著將這些不同的字集加以統一,即所謂的 Han unification(中日韓統一表意文字、或稱中韓日越統一表意文字)。

CJK 各自的字元編碼包含了最低限度的漢字、以及各語言特定的語音符號,例如拼音注音符號平假名片假名、以及諺文。常見的編碼方式包含如下:

CJK 字集使用了相當龐大的 Unicode 空間。這其中包含了來自日本的漢字學專家,針對中日韓統一表意文字過程中,將多個中文字集、日文字集對映至統一字集中的被認可的文字的爭議。

中文和日文皆可由左至右以及由上至下來書寫,但在討論編碼相關議題時通常皆以由左至右的書寫方式來作為考量。

Unicode的CJK統一漢字,作為越南的文字編碼規格的 TCVN 5773:1993 和 TCVN 6056:1995 與漢字(越文漢字、喃字)作為原規格也合併,實際狀態是CJKV。譬如,「U+7551 畑」就是日文漢字之「畑」(JIS X 0208-1990之482A)與越南喃字之「畑」(TCVN 5773:1993之3C2F)的統合。

[编辑] 關連項目

Unicode 相關的條目
Unicode字符列表 | Unicode聯盟 | Unicode技術委員會 | ISO 10646(通用字符集) | UTF-7 | UTF-8 | UTF-16 / UCS-2 | UTF-32 / UCS-4
Unicode字符平面映射 | 中日韓統一表意文字 | CJKV | 表意文字小組(IRG) | IICore | 完整Unicode編碼表
个人工具
名字空间
操作
导航
帮助
工具
其他语言