文字 (Unicode)
在Unicode中,一种文字(script)是字母和其他书面符号的一个集合,用于在一个或多个书写系统(writing system)中表示文本信息。[1]有些文字只支持一种书写系统和语言,例如亚美尼亚语。其他文字支持许多不同的书写系统:例如,拉丁文字支持英语、法语、德语、意大利语、越南语、拉丁语本身以及其他多种语言。一些语言有多种可选的书写系统,因而也就使用多种文字:例如,在土耳其语中,阿拉伯文字在20世纪之前使用,但在20世纪初过渡到拉丁文字。有关每种文字支持的语言列表,请参阅按文字列出的语言列表。符号和Unicode控制字符某种程度上与文字互补。
统一化后的变音字符和标点字符经常具有“通用”或“继承”的文字属性。然而,独立的文字往往有自己的标点和变音符号,以至于许多文字不仅包含字母,还包含变音符号等标记、标点、数字,甚至还有自己的特殊符号和空格字符。
Unicode 15.0定义了161种独立的文字,包括94种现代文字和67种古代或历史文字。[2][3]更多的文字正在编码过程中,有的已被临时分配予计划中的编码。[4]
定义和分类
[编辑]当多种语言使用相同的文字时,经常会出现一些差异,特别是在变音符号和其他标记方面。例如,瑞典语和英语都使用拉丁文字。但是,瑞典语包括字符å(有时称为瑞典语的O),而英语没有这样的字符。英语也没有使用变音符号“组合用上圆圈”来表示任何字符。通常,共享相同文字的语言共享许多相同的字符。尽管瑞典语和英语书写系统存在这些外围差异,但它们被认为使用同一种拉丁文字。因而,Unicode对文字的抽象是一种基本的组织手段。不同字母或书写系统之间的差异仍然存在,并通过Unicode灵活的文字、组合标记和校对算法得到支持。
文字与书写系统
[编辑]书写系统有时被视为文字的同义词。但是,它也可以指一种文字所支持的具体的具体书写系统。例如,拉丁文字支持越南语书写系统。一个书写系统也可能涵盖多种文字;例如,日本的书写系统使用汉字、平假名和片假名。
大多数书写系统可以大致分为几类:象形(logographic)、音节(syllabic)、字母(alphabetic,亦称segmental)、元音附标(abugida)、辅音音素(abjad)和特征(featural);然而,这些分类的所有特征都可能以不同的比例出现在任何给定的书写系统中,这导致通常很难对一个系统进行纯粹的分类。术语复杂系统有时用于分类有困难的混合系统。
Unicode通过其众多的文字支持所有这些类型的书写系统。Unicode还为字符添加了更多属性,以帮助区分各种字符以及它们在Unicode文本处理算法中的行为方式。
特殊文字属性值
[编辑]除了显式或特定的文字属性外,Unicode还使用三个特殊值:[5]
- 通用
- Unicode只能将通用字符集中的一个字符分配给一种文字。但是,许多字符(不属于正式的自然语言书写系统的一部分,或在许多书写系统中统一的字符)可能用于多种文字(例如货币符号、规约符号、数字和标点符号)。在这些情况下,Unicode将它们定义为属于“通用”文字(ISO 15924代码
Zyyy
)。 - 继承
- 许多变音符号和非间距组合字符可以应用于来自多种文字的字符。在这些情况下,Unicode 将它们分配给“继承”文字(ISO 15924 代码
Zinh
),这意味着它们属于与它们所组合的主要字符相同的文字类型,因此在不同的上下文中它们可能被视为属于不同的文字。例如,U+0308 ̈ COMBINING DIAERESIS(组合用分音符)既可以与U+0065 e LATIN SMALL LETTER E(小写拉丁字母E)组合为拉丁字母ë,也可以与U+0435 е CYRILLIC SMALL LETTER IE(小写西里尔字母IE)组合为西里尔字母ё。在前一个例子中,它继承了主要字符的拉丁文字属性,而在后一个例子中继承了西里尔文字属性。 - 未知
- “未知”文字值(ISO 15924 代码
Zzzz
)被赋予未分配的、私用的、非字符的以及代理用的码点。
文字中的字符类别
[编辑]Unicode为每个字符提供了一个通用的类别属性。所以每个字符除了属于一种文字之外,还从属于一个类别。通常的文字由字母字符组成,包括:大写字母、小写字母和修饰字母。一些字符被认为是一些预组的连字的标题字母,例如Dz(U+01F2)。此类标题连字均采用拉丁语和希腊语文字,并且都是兼容字符,因此Unicode不鼓励使用它们。将来不太可能添加新的标题字母。
大多数书写系统不区分大小写字母。对于这些文字,所有字母都归类为“其他字母”或“修饰字母”。中日韩统一表意文字等表意文字也被归类为“其他字母”。然而,一些文字确实区分了大写和小写:拉丁文字、西里尔文字、希腊文字、亚美尼亚文字、格鲁吉亚文字和沙漠文字,但即使对于这些文字,也有一些字母既不是大写也不是小写。
文字还可以包含任何其他一般类别字符,例如标记(变音符号和其他)、数字(数字)、标点符号、分隔符(单词分隔符,例如空格)、符号和非图形格式字符。当它们仅被特定文字使用时,它们会包含在特定文字中,否则通常会被统一化并包含在标点符号或变音符号区块中。但是,任何文字(除了“通用”和“继承:文字)中的大部分字符都是字母。
Unicode中的文字列表
[编辑]Unicode根据 ISO 15924列表定义了一百多个文字名称(称为“别名”或“属性值别名”)。Unicode对ISO 15924的Zyyy
(未确定文字的代码)使用“通用”名称,对ISO 15924的Zinh
(继承文字的代码)使用“继承”,对ISO 15924的Zzzz
(未编码文字的代码)使用“未知”。此外,ISO 15924文字代码Zsym
(符号)和Zmth
(数学符号)未被使用,它们不被认为是Unicode意义上的文字。
ISO 15924 | Unicode收录的文字[e] | |||||||
---|---|---|---|---|---|---|---|---|
代碼 | No. | ISO 15924 名稱 |
中文名稱 | 別名[f] | 方向 | 版本 | 字元數 | 備註 |
Adlm | 166 | Adlam | 富拉語文字 | Adlam | 從右至左書寫 | 9.0 | 88 | |
Afak | 439 | Afaka | 阿法卡音節文字 | 從左至右 | 未被Unicode收錄, proposal under review by the Unicode Technical Committee[6][7] | |||
Aghb | 239 | Caucasian Albanian | 高加索阿爾巴尼亞文 | Caucasian Albanian | 從左至右 | 7.0 | 53 | 古代/歷史文字 |
Ahom | 338 | Ahom, Tai Ahom | 阿洪姆文 | Ahom | 從左至右 | 8.0 | 58 | 古代/歷史文字 |
Arab | 160 | Arabic | 阿拉伯文 | Arabic | 從右至左書寫 | 1.0 | 1,281 | |
Aran | 161 | Arabic (Nastaliq variant) | 波斯體阿拉伯文 | 從右至左書寫 | Typographic variant of Arabic | |||
Armi | 124 | Imperial Aramaic | 阿拉米字母 | Imperial Aramaic | 從右至左書寫 | 5.2 | 31 | 古代/歷史文字 |
Armn | 230 | Armenian | 亞美尼亞字母 | Armenian | 從左至右 | 1.0 | 95 | |
Avst | 134 | Avestan | 阿維斯陀字母 | Avestan | 從右至左書寫 | 5.2 | 61 | 古代/歷史文字 |
Bali | 360 | Balinese | 峇里字母 | Balinese | 從左至右 | 5.0 | 121 | |
Bamu | 435 | Bamum | 巴姆穆文字 | Bamum | 從左至右 | 5.2 | 657 | |
Bass | 259 | Bassa Vah | 巴薩文 | Bassa Vah | 從左至右 | 7.0 | 36 | 古代/歷史文字 |
Batk | 365 | Batak | 巴塔克文 | Batak | 從左至右 | 6.0 | 56 | |
Beng | 325 | Bengali (Bangla) | 孟加拉文 | Bengali | 從左至右 | 1.0 | 96 | |
Bhks | 334 | Bhaiksuki | 拜克舒基文 | Bhaiksuki | 從左至右 | 9.0 | 97 | 古代/歷史文字 |
Blis | 550 | Blissymbols | 布力辛博文 | 從左至右 | 未被Unicode收錄, proposal in initial/exploratory stage[6] | |||
Bopo | 285 | Bopomofo | 注音符號 | Bopomofo | 從左至右、從右至左書寫 | 1.0 | 72 | |
Brah | 300 | Brahmi | 婆罗米文 | Brahmi | 從左至右 | 6.0 | 109 | 古代/歷史文字 |
Brai | 570 | Braille | 點字 | Braille | 從左至右 | 3.0 | 256 | |
Bugi | 367 | Buginese | 布吉文 | Buginese | 從左至右 | 4.1 | 30 | |
Buhd | 372 | Buhid | 布希德文 | Buhid | 從左至右 | 3.2 | 20 | |
Cakm | 349 | Chakma | 查克馬文 | Chakma | 從左至右 | 6.1 | 70 | |
Cans | 440 | Unified Canadian Aboriginal Syllabics | 加拿大原住民音節文字 | Canadian Aboriginal | 從左至右 | 3.0 | 710 | |
Cari | 201 | Carian | 卡里亞字母 | Carian | 從左至右、從右至左書寫 | 5.1 | 49 | 古代/歷史文字 |
Cham | 358 | Cham | 占文 | Cham | 從左至右 | 5.1 | 83 | |
Cher | 445 | Cherokee | 切羅基文 | Cherokee | 從左至右 | 3.0 | 172 | |
Chrs | 109 | Chorasmian | 花剌子模文 | Chorasmian | 從右至左書寫、从上至下 | 未被Unicode收錄 | ||
Cirt | 291 | Cirth | 克爾斯文 | 從左至右 | 未被Unicode收錄 | |||
Copt | 204 | Coptic | 科普特字母 | Coptic | 從左至右 | 1.0 | 137 | 古代/歷史文字, Disunified from Greek in 4.1 |
Cpmn | 402 | Cypro-Minoan | 塞普勒斯-米諾斯文字 | Cypro Minoan | 從左至右 | 未被Unicode收錄 | ||
Cprt | 403 | Cypriot syllabary | 賽普勒斯音節文字 | Cypriot | 從右至左書寫 | 4.0 | 55 | 古代/歷史文字 |
Cyrl | 220 | Cyrillic | 西里尔字母 | Cyrillic | 從左至右 | 1.0 | 443 | |
Cyrs | 221 | Cyrillic (Old Church Slavonic variant) | 早期西里尔字母 | 從左至右 | 古代/歷史文字, typographic variant of Cyrillic | |||
Deva | 315 | Devanagari (Nagari) | 天城文 | Devanagari | 從左至右 | 1.0 | 154 | |
Diak | 342 | Dives Akuru | 迪維希阿庫魯文 | Dives Akuru | 從左至右 | 未被Unicode收錄 | ||
Dogr | 328 | Dogra | 多格拉文 | Dogra | 從左至右 | 11.0 | 60 | 古代/歷史文字 |
Dsrt | 250 | Deseret (Mormon) | 德瑟雷特字母 | Deseret | 從左至右 | 3.1 | 80 | |
Dupl | 755 | Duployan shorthand, Duployan stenography | 杜普雷速記 | Duployan | 從左至右 | 7.0 | 143 | |
Egyd | 070 | Egyptian demotic | 世俗體 | 雙向文稿 | 未被Unicode收錄 | |||
Egyh | 060 | Egyptian hieratic | 僧侶體 | 未被Unicode收錄 | ||||
Egyp | 050 | Egyptian hieroglyphs | 圣书体 | Egyptian Hieroglyphs | 從右至左書寫、從左至右 | 5.2 | 1,080 | 古代/歷史文字 |
Elba | 226 | Elbasan | 愛爾巴桑字母 | Elbasan | 從左至右 | 7.0 | 40 | 古代/歷史文字 |
Elym | 128 | Elymaic | 埃利邁文 | Elymaic | 從右至左書寫 | 12.0 | 23 | 古代/歷史文字 |
Ethi | 430 | Ethiopic (Geʻez) | 吉茲字母 | Ethiopic | 從左至右 | 3.0 | 495 | |
Geok | 241 | Khutsuri (Asomtavruli and Nuskhuri) | 喬治亞文小草體 | Georgian | 從左至右 | Unicode groups Geok and Geor together as "Georgian" | ||
Geor | 240 | Georgian (Mkhedruli and Mtavruli) | 喬治亞文騎士體 | Georgian | 從左至右 | 1.0 | 173 | For Unicode, see also Geok |
Glag | 225 | Glagolitic | 格拉哥里字母 | Glagolitic | 從左至右 | 4.1 | 132 | 古代/歷史文字 |
Gong | 312 | Gunjala Gondi | 貢賈拉貢德文字 | Gunjala Gondi | 從左至右 | 11.0 | 63 | |
Gonm | 313 | Masaram Gondi | 馬薩拉姆貢德文字 | Masaram Gondi | 從左至右 | 10.0 | 75 | |
Goth | 206 | Gothic | 哥德字母 | Gothic | 從左至右 | 3.1 | 27 | 古代/歷史文字 |
Gran | 343 | Grantha | 古兰塔文 | Grantha | 從左至右 | 7.0 | 85 | 古代/歷史文字 |
Grek | 200 | Greek | 希腊字母 | Greek | 從左至右 | 1.0 | 518 | Sometimes expressed as boustrophedon (mirroring of alternate lines rather than purely left-to-right) |
Gujr | 320 | Gujarati | 古吉拉特文 | Gujarati | 從左至右 | 1.0 | 91 | |
Guru | 310 | Gurmukhi | 古木基文 | Gurmukhi | 從左至右 | 1.0 | 80 | |
Hanb | 503 | Han with Bopomofo (alias for Han + Bopomofo) | 漢字(帶注音符號) | 直書從右至左、從左至右 | See Hani, Bopo | |||
Hang | 286 | Hangul (Hangŭl, Hangeul) | 諺文 | Hangul | 從左至右、直書從右至左 | 1.0 | 11,739 | Hangul syllables relocated in 2.0 |
Hani | 500 | Han (Hanzi, Kanji, Hanja) | 漢字(中文漢字、日本漢字、韓國漢字) | Han | 從左至右、直書從右至左 | 1.0 | 89,233 | |
Hano | 371 | Hanunoo (Hanunóo) | 哈努諾字母 | Hanunoo | 從左至右、从下至上 | 3.2 | 21 | |
Hans | 501 | Han (Simplified variant) | 簡體中文 | 從左至右 | Subset Hani | |||
Hant | 502 | Han (Traditional variant) | 繁體中文 | 從左至右 | Subset Hani | |||
Hatr | 127 | Hatran | 哈特拉文 | Hatran | 從右至左書寫 | 8.0 | 26 | 古代/歷史文字 |
Hebr | 125 | Hebrew | 希伯來文 | Hebrew | 從右至左書寫 | 1.0 | 134 | |
Hira | 410 | Hiragana | 平假名 | Hiragana | 直書從右至左、從左至右 | 1.0 | 379 | |
Hluw | 080 | Anatolian Hieroglyphs (Luwian Hieroglyphs, Hittite Hieroglyphs) | 安納托利亞象形文字 | Anatolian Hieroglyphs | 從左至右 | 8.0 | 583 | 古代/歷史文字 |
Hmng | 450 | Pahawh Hmong | 救世苗文 | Pahawh Hmong | 從左至右 | 7.0 | 127 | |
Hmnp | 451 | Nyiakeng Puachue Hmong | 創世紀苗文 | Nyiakeng Puachue Hmong | 從左至右 | 12.0 | 71 | |
Hrkt | 412 | Japanese syllabaries (alias for Hiragana + Katakana) | 假名 | Katakana or Hiragana | 直書從右至左、從左至右 | See Hira, Kana | ||
Hung | 176 | Old Hungarian (Hungarian Runic) | 古匈牙利字母 | Old Hungarian | 從右至左書寫 | 8.0 | 108 | 古代/歷史文字 |
Inds | 610 | Indus (Harappan) | 印度河文字 | 從右至左書寫、牛耕式轉行書寫法 | 未被Unicode收錄, proposal in initial/exploratory stage[6] | |||
Ital | 210 | Old Italic (Etruscan, Oscan, etc.) | 古意大利字母 | Old Italic | 從右至左書寫、從左至右 | 3.1 | 39 | 古代/歷史文字 |
Jamo | 284 | Jamo (alias for Jamo subset of Hangul) | 韩语字母 | Subset Hang | ||||
Java | 361 | Javanese | 爪哇字母 | Javanese | 從左至右 | 5.2 | 90 | |
Jpan | 413 | Japanese (alias for Han + Hiragana + Katakana) | 日文文字 | 直書從右至左、從左至右 | See Hani, Hira and Kana | |||
Jurc | 510 | Jurchen | 女真文 | 從左至右 | 未被Unicode收錄 | |||
Kali | 357 | Kayah Li | 克耶里字母 | Kayah Li | 從左至右 | 5.1 | 47 | |
Kana | 411 | Katakana | 片假名 | Katakana | 直書從右至左、從左至右 | 1.0 | 304 | |
Khar | 305 | Kharoshthi | 佉卢文 | Kharoshthi | 從右至左書寫 | 4.1 | 68 | 古代/歷史文字 |
Khmr | 355 | Khmer | 高棉文 | Khmer | 從左至右 | 3.0 | 146 | |
Khoj | 322 | Khojki | 可吉文 | Khojki | 從左至右 | 7.0 | 62 | 古代/歷史文字 |
Kitl | 505 | Khitan large script | 契丹大字 | 從左至右 | 未被Unicode收錄 | |||
Kits | 288 | Khitan small script | 契丹小字 | Khitan Small Script | 直書從右至左 | |||
Knda | 345 | Kannada | 卡納達文 | Kannada | 從左至右 | 1.0 | 89 | |
Kore | 287 | Korean (alias for Hangul + Han) | 韓漢混用文 | 从上至下、從左至右、從右至左書寫 | See Hani and Hang | |||
Kpel | 436 | Kpelle | 克培列文 | 從左至右 | 未被Unicode收錄, proposal in initial/exploratory stage[6] | |||
Kthi | 317 | Kaithi | 凱提文 | Kaithi | 從左至右 | 5.2 | 67 | 古代/歷史文字 |
Lana | 351 | Tai Tham (Lanna) | 老傣仂文 | Tai Tham | 從左至右 | 5.2 | 127 | |
Laoo | 356 | Lao | 寮文 | Lao | 從左至右 | 1.0 | 82 | |
Latf | 217 | Latin (Fraktur variant) | 德文尖角體 | 從左至右 | Typographic variant of Latin | |||
Latg | 216 | Latin (Gaelic variant) | 蓋爾體 | 從左至右 | Typographic variant of Latin | |||
Latn | 215 | Latin | 拉丁字母 | Latin | 從左至右 | 1.0 | 1,366 | See Latin script in Unicode |
Leke | 364 | Leke | 勒克文 | 從左至右 | 未被Unicode收錄 | |||
Lepc | 335 | Lepcha (Róng) | 绒巴文 | Lepcha | 從左至右 | 5.1 | 74 | |
Limb | 336 | Limbu | 林布文 | Limbu | 從左至右 | 4.0 | 68 | |
Lina | 400 | Linear A | 線形文字A | Linear A | 從左至右 | 7.0 | 341 | 古代/歷史文字 |
Linb | 401 | Linear B | 線形文字B | Linear B | 從左至右 | 4.0 | 211 | 古代/歷史文字 |
Lisu | 399 | Lisu (Fraser) | 老傈僳文 | Lisu | 從左至右 | 5.2 | 48 | |
Loma | 437 | Loma | 洛瑪文 | 從左至右 | 未被Unicode收錄, proposal in initial/exploratory stage[6] | |||
Lyci | 202 | Lycian | 呂基亞字母 | Lycian | 從左至右 | 5.1 | 29 | 古代/歷史文字 |
Lydi | 116 | Lydian | 呂底亞字母 | Lydian | 從右至左書寫 | 5.1 | 27 | 古代/歷史文字 |
Mahj | 314 | Mahajani | 馬哈佳尼文 | Mahajani | 從左至右 | 7.0 | 39 | 古代/歷史文字 |
Maka | 366 | Makasar | 望加錫文 | Makasar | 從左至右 | 11.0 | 25 | 古代/歷史文字 |
Mand | 140 | Mandaic, Mandaean | 曼達安字母 | Mandaic | 從右至左書寫 | 6.0 | 29 | |
Mani | 139 | Manichaean | 摩尼字母 | Manichaean | 從右至左書寫 | 7.0 | 51 | 古代/歷史文字 |
Marc | 332 | Marchen | 象雄文 | Marchen | 從左至右 | 9.0 | 68 | 古代/歷史文字 |
Maya | 090 | Mayan hieroglyphs | 瑪雅文字 | 从上至下 | 未被Unicode收錄 | |||
Medf | 265 | Medefaidrin (Oberi Okaime, Oberi Ɔkaimɛ) | 梅德法伊德林文 | Medefaidrin | 從左至右 | 11.0 | 91 | |
Mend | 438 | Mende Kikakui | 門德基卡庫文 | Mende Kikakui | 從右至左書寫 | 7.0 | 213 | |
Merc | 101 | Meroitic Cursive | 麥羅埃文草書體 | Meroitic Cursive | 從右至左書寫 | 6.1 | 90 | 古代/歷史文字 |
Mero | 100 | Meroitic Hieroglyphs | 麥羅埃文聖書體 | Meroitic Hieroglyphs | 從右至左書寫 | 6.1 | 32 | 古代/歷史文字 |
Mlym | 347 | Malayalam | 馬拉雅拉姆文 | Malayalam | 從左至右 | 1.0 | 117 | |
Modi | 324 | Modi, Moḍī | 莫迪文 | Modi | 從左至右 | 7.0 | 79 | 古代/歷史文字 |
Mong | 145 | Mongolian | 蒙古文 | Mongolian | 从左至右垂直、從左至右 | 3.0 | 167 | Includes Clear, Manchu scripts |
Moon | 218 | Moon (Moon code, Moon script, Moon type) | 穆恩字母 | 從左至右 | 未被Unicode收錄, proposal in initial/exploratory stage[6] | |||
Mroo | 264 | Mro, Mru | 默祿文 | Mro | 從左至右 | 7.0 | 43 | |
Mtei | 337 | Meitei Mayek (Meithei, Meetei) | 梅泰文 | Meetei Mayek | 從左至右 | 5.2 | 79 | |
Mult | 323 | Multani | 穆爾塔尼文 | Multani | 從左至右 | 8.0 | 38 | 古代/歷史文字 |
Mymr | 350 | Myanmar (Burmese) | 缅文 | Myanmar | 從左至右 | 3.0 | 223 | |
Nand | 311 | Nandinagari | 南迪城文 | Nandinagari | 從左至右 | 12.0 | 65 | 古代/歷史文字 |
Narb | 106 | Old North Arabian (Ancient North Arabian) | 古北阿拉伯字母 | Old North Arabian | 從右至左書寫 | 7.0 | 32 | 古代/歷史文字 |
Nbat | 159 | Nabataean | 納巴泰字母 | Nabataean | 從右至左書寫 | 7.0 | 40 | 古代/歷史文字 |
Newa | 333 | Newa, Newar, Newari, Nepāla lipi | 普拉卡利特文 | Newa | 從左至右 | 9.0 | 94 | |
Nkdb | 085 | Naxi Dongba (na²¹ɕi³³ to³³ba²¹, Nakhi Tomba) | 东巴文 | 從左至右 | 未被Unicode收錄 | |||
Nkgb | 420 | Nakhi Geba (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-¹baw, Nakhi Geba) | 哥巴文 | 從左至右 | 未被Unicode收錄, proposal in initial/exploratory stage[6] | |||
Nkoo | 165 | N’Ko, N'Ko | 西非書面文字 | NKo | 從右至左書寫 | 5.0 | 62 | |
Nshu | 499 | Nüshu | 女书 | Nushu | 直書從右至左 | 10.0 | 397 | |
Ogam | 212 | Ogham | 歐甘字母 | Ogham | 从下至上、從左至右 | 3.0 | 29 | 古代/歷史文字 |
Olck | 261 | Ol Chiki (Ol Cemet', Ol, Santali) | 桑塔利文 | Ol Chiki | 從左至右 | 5.1 | 48 | |
Orkh | 175 | Old Turkic, Orkhon Runic | 古突厥文 | Old Turkic | 從右至左書寫 | 5.2 | 73 | 古代/歷史文字 |
Orya | 327 | Oriya (Odia) | 奧里亞文 | Oriya | 從左至右 | 1.0 | 90 | |
Osge | 219 | Osage | 歐塞奇字母 | Osage | 從左至右 | 9.0 | 72 | |
Osma | 260 | Osmanya | 奧斯曼亞字母 | Osmanya | 從左至右 | 4.0 | 40 | |
Palm | 126 | Palmyrene | 帕爾邁拉字母 | Palmyrene | 從右至左書寫 | 7.0 | 32 | 古代/歷史文字 |
Pauc | 263 | Pau Cin Hau | 包钦豪文 | Pau Cin Hau | 從左至右 | 7.0 | 57 | |
Perm | 227 | Old Permic | 古彼爾姆文 | Old Permic | 從左至右 | 7.0 | 43 | 古代/歷史文字 |
Phag | 331 | Phags-pa | 八思巴字 | Phags-pa | 从左至右垂直 | 5.0 | 56 | 古代/歷史文字 |
Phli | 131 | Inscriptional Pahlavi | 碑刻巴列維文 | Inscriptional Pahlavi | 從右至左書寫 | 5.2 | 27 | 古代/歷史文字 |
Phlp | 132 | Psalter Pahlavi | 詩篇巴列維文 | Psalter Pahlavi | 從右至左書寫 | 7.0 | 29 | 古代/歷史文字 |
Phlv | 133 | Book Pahlavi | 書本巴列維文 | 從右至左書寫 | 未被Unicode收錄 | |||
Phnx | 115 | Phoenician | 音標 | Phoenician | 從右至左書寫 | 5.0 | 29 | 古代/歷史文字 |
Piqd | 293 | Klingon (KLI pIqaD) | 克林貢文 | 從左至右 | Rejected for inclusion in the Unicode Standard[8][9] | |||
Plrd | 282 | Miao (Pollard) | 柏格理苗文 | Miao | 從左至右 | 6.1 | 149 | |
Prti | 130 | Inscriptional Parthian | 碑刻帕提亞文 | Inscriptional Parthian | 從右至左書寫 | 5.2 | 30 | 古代/歷史文字 |
Qaaa | 900 | Reserved for private use (start) | 私人使用區(開始) | 未被Unicode收錄 | ||||
Qaai | 908 | (Private use) | (私人用途) | 未被Unicode收錄 (Before version 5.2, this was used instead of Zinh) | ||||
Qabx | 949 | Reserved for private use (end) | 私人使用區(結束) | 未被Unicode收錄 | ||||
Rjng | 363 | Rejang (Redjang, Kaganga) | 勒姜字母 | Rejang | 從左至右 | 5.1 | 37 | |
Rohg | 167 | Hanifi Rohingya | 哈乃斐羅興亞文字 | Hanifi Rohingya | 從右至左書寫 | 11.0 | 50 | |
Roro | 620 | Rongorongo | 朗格朗格 | 牛耕式轉行書寫法 | 未被Unicode收錄, proposal in initial/exploratory stage[6] | |||
Runr | 211 | Runic | 盧恩字母 | Runic | 從左至右、牛耕式轉行書寫法 | 3.0 | 86 | 古代/歷史文字 |
Samr | 123 | Samaritan | 撒瑪利亞字母 | Samaritan | 從右至左書寫、从上至下 | 5.2 | 61 | |
Sara | 292 | Sarati | 沙拉堤文字 | 从上至下、從左至右、從右至左書寫、牛耕式轉行書寫法、从左至右垂直 | 未被Unicode收錄 | |||
Sarb | 105 | Old South Arabian | 古南阿拉伯字母 | Old South Arabian | 從右至左書寫 | 5.2 | 32 | 古代/歷史文字 |
Saur | 344 | Saurashtra | 索拉什特拉文 | Saurashtra | 從左至右 | 5.1 | 82 | |
Sgnw | 095 | SignWriting | 手語書寫符號 | SignWriting | 从左至右垂直 | 8.0 | 672 | |
Shaw | 281 | Shavian (Shaw) | 蕭伯納字母 | Shavian | 從左至右 | 4.0 | 48 | |
Shrd | 319 | Sharada, Śāradā | 夏拉達文 | Sharada | 從左至右 | 6.1 | 94 | |
Shui | 530 | Shuishu | 水書 | 直書從右至左 | 未被Unicode收錄 | |||
Sidd | 302 | Siddham, Siddhaṃ, Siddhamātṛkā | 悉曇文字 | Siddham | 從左至右 | 7.0 | 92 | 古代/歷史文字 |
Sind | 318 | Khudawadi, Sindhi | 庫達巴蒂文 | Khudawadi | 從左至右 | 7.0 | 69 | |
Sinh | 348 | Sinhala | 僧伽羅文 | Sinhala | 從左至右 | 3.0 | 110 | |
Sogd | 141 | Sogdian | 粟特字母 | Sogdian | 縱書與橫書、从上至下 | 11.0 | 42 | 古代/歷史文字 |
Sogo | 142 | Old Sogdian | 粟特字母 | Old Sogdian | 從右至左書寫 | 11.0 | 40 | 古代/歷史文字 |
Sora | 398 | Sora Sompeng | 索拉僧平字母 | Sora Sompeng | 從左至右 | 6.1 | 35 | |
Soyo | 329 | Soyombo | 索永布文字 | Soyombo | 從左至右 | 10.0 | 83 | 古代/歷史文字 |
Sund | 362 | Sundanese | 巽他字母 | Sundanese | 從左至右 | 5.1 | 72 | |
Sylo | 316 | Syloti Nagri | 錫爾赫特城文 | Syloti Nagri | 從左至右 | 4.1 | 44 | |
Syrc | 135 | Syriac | 敘利亞字母 | Syriac | 從右至左書寫 | 3.0 | 88 | |
Syre | 138 | Syriac (Estrangelo variant) | 敘利亞字母古典體 | 從右至左書寫 | 敘利亞字母的印刷變體 | |||
Syrj | 137 | Syriac (Western variant) | 敘利亞字母西部變體 | 從右至左書寫 | 敘利亞字母的印刷變體 | |||
Syrn | 136 | Syriac (Eastern variant) | 敘利亞字母東部變體 | 從右至左書寫 | 敘利亞字母的印刷變體 | |||
Tagb | 373 | Tagbanwa | 塔格巴努亞文 | Tagbanwa | 從左至右 | 3.2 | 18 | |
Takr | 321 | Takri, Ṭākrī, Ṭāṅkrī | 塔克里文 | Takri | 從左至右 | 6.1 | 67 | |
Tale | 353 | Tai Le | 傣仂文 | Tai Le | 從左至右 | 4.0 | 35 | |
Talu | 354 | New Tai Lue | 新傣仂文 | New Tai Lue | 從左至右 | 4.1 | 83 | |
Taml | 346 | Tamil | 泰米爾文 | Tamil | 從左至右 | 1.0 | 123 | |
Tang | 520 | Tangut | 西夏文 | Tangut | 直書從右至左、從左至右 | 9.0 | 6,892 | 古代/歷史文字 |
Tavt | 359 | Tai Viet | 傣擔文 | Tai Viet | 從左至右 | 5.2 | 72 | |
Telu | 340 | Telugu | 泰卢固文 | Telugu | 從左至右 | 1.0 | 98 | |
Teng | 290 | Tengwar | 滕格瓦字母 | 從左至右 | 未被Unicode收錄 | |||
Tfng | 120 | Tifinagh (Berber) | 提非納文 | Tifinagh | 從左至右、從右至左書寫、从上至下、从下至上 | 4.1 | 59 | |
Tglg | 370 | Tagalog (Baybayin, Alibata) | 貝貝因文 | Tagalog | 從左至右 | 3.2 | 20 | |
Thaa | 170 | Thaana | 它拿字母 | Thaana | 從右至左書寫 | 3.0 | 50 | |
Thai | 352 | Thai | 泰文 | Thai | 從左至右 | 1.0 | 86 | |
Tibt | 330 | Tibetan | 藏文 | Tibetan | 從左至右 | 2.0 | 207 | Added in 1.0, removed in 1.1 and reintroduced in 2.0 |
Tirh | 326 | Tirhuta | 底罗仆多文 | Tirhuta | 從左至右 | 14.0 | 82 | |
Tasa | 書寫系統 | 14.0 | 89 | |||||
Toto | 294 | 書寫系統 | Toto | 從左至右 | 14.0 | 31 | ||
Ugar | 040 | Ugaritic | 烏加里特字母 | Ugaritic | 從左至右 | 4.0 | 31 | 古代/歷史文字 |
Vaii | 470 | Vai | 瓦伊文 | Vai | 從左至右 | 5.1 | 300 | |
Visp | 280 | Visible Speech | 可視語言 | 從左至右 | 未被Unicode收錄 | |||
Wara | 262 | Warang Citi (Varang Kshiti) | 瓦蘭齊地文 | Warang Citi | 從左至右 | 7.0 | 84 | |
Wcho | 283 | Wancho | 文喬字母 | Wancho | 從左至右 | 12.0 | 59 | |
Wole | 480 | Woleai | 沃萊艾文 | 從左至右 | 未被Unicode收錄, proposal in initial/exploratory stage[6] | |||
Xpeo | 030 | Old Persian | 古波斯楔形文字 | Old Persian | 從左至右 | 4.1 | 50 | 古代/歷史文字 |
Xsux | 020 | Cuneiform, Sumero-Akkadian | 楔形文字 | Cuneiform | 從左至右 | 5.0 | 1,234 | 古代/歷史文字 |
Yezi | 192 | Yezidi | 雅兹迪文 | Yezidi | 從右至左書寫 | 未被Unicode收錄 | ||
Yiii | 460 | Yi | 彝文 | Yi | 從左至右 | 3.0 | 1,220 | |
Zanb | 339 | Zanabazar Square (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, Horizontal Square Script) | 札那巴札尔方形字母 | Zanabazar Square | 從左至右 | 10.0 | 72 | 古代/歷史文字 |
Zinh | 994 | Code for inherited script | 繼承文字 | Inherited | 10.0 | 571 | ||
Zmth | 995 | Mathematical notation | 數學符號 | Not a 'script' in Unicode | ||||
Zsym | 996 | Symbols | 符號 | Not a 'script' in Unicode | ||||
Zsye | 993 | Symbols (emoji variant) | 颜文字 | Not a 'script' in Unicode | ||||
Zxxx | 997 | Code for unwritten documents | 不成文 | Not a 'script' in Unicode | ||||
Zyyy | 998 | Code for undetermined script | 未定 | Common | 7,805 | |||
Zzzz | 999 | Code for uncoded script | 未編碼 | Unknown | 976,118 | All other code points | ||
附註
|
Unicode中缺少的文字
[编辑]随着Unicode的每个新版本发布,国际字符代码中都添加了新的书写系统。根据加州大学伯克利分校的语言学家Deborah Anderson博士的一份声明,Unicode中尚有100多种书写系统未包含。
根据德国美因茨应用科学大学、法国ANRT Nancy和美国加州大学伯克利分校的项目“Missing Scripts”清单,根据目前的研究状况(2022年1月),人类已知的书写系统有294种。其中131个尚未以Unicode编码,即尚不能在计算机或手机上使用。
参见
[编辑]参考资料
[编辑]- ^ Glossary. unicode.org. [2022-10-24]. (原始内容存档于2015-12-26).
- ^ Unicode Character Database: Scripts. unicode.org. [2022-10-24]. (原始内容存档于2022-10-19).
- ^ Chapter 14: Additional Ancient and Historic Scripts (PDF). Mountain View, CA: Unicode, Inc. September 2022 [2022-10-24]. ISBN 978-1-936213-32-0. (原始内容存档 (PDF)于2022-10-07).
- ^ https://www.unicode.org/roadmaps/ (页面存档备份,存于互联网档案馆) Roadmaps to Unicode
- ^ UAX #24: Unicode Script Property. www.unicode.org. [2022-10-24]. (原始内容存档于2022-10-05).
- ^ 6.0 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 Proposed New Scripts. Unicode Consortium. 2018-05-25 [2018-09-12].
- ^ Roadmap to the SMP. Unicode Consortium. 2018-08-08 [2018-09-12].
- ^ Michael Everson. Proposal to encode Klingon in Plane 1 of ISO/IEC 10646-2. 1997-09-18.
- ^ The Unicode Consortium. Approved Minutes of the UTC 87 / L2 184 Joint Meeting. 2001-08-14.
外部链接
[编辑]- Script Encoding Initiative (页面存档备份,存于互联网档案馆),美国加州大学伯克利分校的一个项目,致力于让更多的文字包含在Unicode标准中。
- The World's Writing Systems (页面存档备份,存于互联网档案馆),所有 94种已知书写系统的概述,每个系统都有一个印刷参考字形及其Unicode状态。