本頁使用了標題或全文手工轉換

Unicode

維基百科,自由的百科全書
(已重新導向自 UTF)
前往: 導覽搜尋
Unicode標誌

Unicode中文萬國碼國際碼統一碼單一碼)是電腦科學領域裡的一項業界標準。它對世界上大部分的文字系統進行了整理、編碼,使得電腦可以用更為簡單的方式來呈現和處理文字。

Unicode伴隨著通用字符集的標準而發展,同時也以書本的形式[1]對外發表。Unicode至今仍在不斷增修,每個新版本都加入更多新的字符。目前最新的版本為2015年6月17日公布的8.0.0[1],已收入超過十萬個字符(第十萬個字符在2005年獲採納)。Unicode涵蓋的資料除了視覺上的字形、編碼方法、標準的字符編碼外,還包含了字符特性,如大小寫字母。

Unicode發展由非營利機構統一碼聯盟負責,該機構致力於讓Unicode方案取代既有的字符編碼方案。因為既有的方案往往空間非常有限,亦不適用於多語環境。

Unicode備受認可,並廣泛地應用於電腦軟體的國際化與在地化過程。有很多新科技,如可延伸標示語言Java程式語言以及現代的作業系統,都採用Unicode編碼。

起源與發展[編輯]

Unicode是為了解決傳統的字元編碼方案的侷限而產生的,例如ISO 8859-1所定義的字元雖然在不同的國家中廣泛地使用,可是在不同國家間卻經常出現不相容的情況。很多傳統的編碼方式都有一個共同的問題,即容許電腦處理雙語環境(通常使用拉丁字母以及其本地語言),但卻無法同時支援多語言環境(指可同時處理多種語言混合的情況)。

Unicode編碼包含了不同寫法的字,如「ɑa」、「強/强」、「戶/户/戸」。然而在漢字方面引起了一字多形的認定爭議(詳見中日韓統一表意文字主題)。

在文字處理方面,統一碼為每一個字符而非字形定義唯一的代碼(即一個整數)。換句話說,統一碼以一種抽象的方式(即數字)來處理字符,並將視覺上的演繹工作(例如字體大小、外觀形狀、字體形態、文體等)留給其他軟體來處理,例如網頁瀏覽器或是文字處理器。

目前,幾乎所有電腦系統都支援基本拉丁字母,並各自支援不同的其他編碼方式。Unicode為了和它們相互相容,其首256字元保留給ISO 8859-1所定義的字元,使既有的西歐語系文字的轉換不需特別考量;並且把大量相同的字元重複編到不同的字元碼中去,使得舊有紛雜的編碼方式得以和Unicode編碼間互相直接轉換,而不會遺失任何資訊。舉例來說,全形格式區段包含了主要的拉丁字母的全形格式,在中文、日文、以及韓文字形當中,這些字元以全形的方式來呈現,而不以常見的半形形式顯示,這對豎排文字和等寬排列文字有重要作用。

在表示一個Unicode的字元時,通常會用「U+」然後緊接著一組十六進位的數字來表示這一個字元。在基本多文種平面(英文:Basic Multilingual Plane,簡寫BMP。又稱為「零號平面」、plane 0)裏的所有字元,要用四個數字(即兩個char,16bit ,例如U+4AE0,共支援六萬多個字符);在零號平面以外的字元則需要使用五個或六個數字。舊版的Unicode標準使用相近的標記方法,但卻有些微小差異:在Unicode 3.0裏使用「U-」然後緊接著八個數字,而「U+」則必須隨後緊接著四個數字。

標準[編輯]

位於美國加州的Unicode組織允許任何願意支付會費的公司和個人加入,其成員包含了主要的電腦軟硬體廠商,例如奧多比系統蘋果公司惠普IBM微軟全錄等。

20世紀80年代末,組成Unicode組織的商業機構,和國際合作的國際標準化組織因為電腦普及和資訊國際化的前提下,分別各自成立了Unicode組織[2]和ISO-10646工作小組。他們不久便發現對方的存在,大家為著相同的目的而工作。1991年,Unicode Consortium與ISO/IEC JTC1/SC2同意保持Unicode碼表與ISO 10646標準保持相容並密切協調各自標準進一步的擴充功能。雖然實際上兩者的字集編碼相同,但實質上兩者確實為兩個不同的標準。Unicode 1.1對應於ISO 10646-1:1993,Unicode 3.0對應於ISO 10646-1:2000,Unicode 3.2對應於ISO 10646-2:2001,Unicode 4.0對應於ISO 10646:2003,Unicode 5.0對應於ISO 10646:2003及附錄1–3。

Unicode自版本2.0開始保持了回溯相容,即新的版本僅僅增加字符,原有字符不會被刪除或更名。

統一碼聯盟在1991年首次發布了The Unicode Standard。Unicode的開發結合了國際標準化組織所制定的ISO/IEC 10646,即通用字元集。Unicode與ISO/IEC 10646在編碼的運作原理相同,但The Unicode Standard包含了更詳盡的實現資訊、涵蓋了更細節的主題,諸如位元編碼(bitwise encoding)、校對以及呈現等。The Unicode Standard也列舉了諸多的字元特性,包含了那些必須支援兩種閱讀方向的文字(由左至右或由右至左的文字閱讀方向,例如阿拉伯文是由右至左)。Unicode與ISO/IEC 10646這兩個標準在術語上的使用有些微的不同。

在2005年,Unicode的第十萬個字元被引入成為標準之一,該字元被用於馬拉雅拉姆語

歷史[編輯]

Unicode截至目前為止歷次的版次與發布時間如下:

Unicode版本
版本 發布日期 書籍 對應ISO/IEC 10646版本 字母英語Script (Unicode) 字元
總計[a] 已知的擴增
1.0.0 1991年10月 ISBN 978-0-201-56788-5 (Vol.1) 24 7,161 最初包含的文字有:阿拉伯字母亞美尼亞字母孟加拉文注音符號西里爾字母天城文喬治亞字母希臘字母古吉拉特文古木基文諺文希伯來字母平假名卡納達文片假名寮文字拉丁字母馬拉雅拉姆文奧里亞文泰米爾文泰盧固文泰文字藏文[3]
1.0.1 1992年6月 ISBN 978-0-201-60845-8 (Vol.2) 25 28,359 定義中日韓統一表意文字最初的20,902個字[4]
1.1 1993年6月 ISO/IEC 10646-1:1993 24 34,233 於原有2,350個諺文字母的基礎上新增4,306個諺文字母。移除藏文[5]
2.0 1996年7月 ISBN 978-0-201-48345-1 ISO/IEC 10646-1:1993與其第5-7修訂版 25 38,950 移除原有的諺文字母設置,於新的編碼範圍更換成11,172個新的諺文字母。藏文重新加入,但編碼位置更換。代理字符機制建立,並將第15與第16平面分配給私人使用區[6]
2.1 1998年5月 ISO/IEC 10646-1:1993與其第5-7修訂版,以及第18修訂版中新增的2個字元 25 38,952 新增歐元符號Object Replacement Character added[7]
3.0 1999年9月 ISBN 978-0-201-61633-0 ISO/IEC 10646-1:2000 38 49,259 Cherokee, Ethiopic, Khmer, Mongolian, Burmese, Ogham, Runic, Sinhala, Syriac, Thaana, Unified Canadian Aboriginal Syllabics, and Yi Syllables added, as well as a set of Braille patterns.[8]
3.1 2001年3月 ISO/IEC 10646-1:2000

ISO/IEC 10646-2:2001

41 94,205 Deseret, Gothic and Old Italic added, as well as sets of symbols for Western music and Byzantine music, and 42,711 additional CJK Unified Ideographs.[9]
3.2 2002年3月 ISO/IEC 10646-1:2000與其第1修訂版

ISO/IEC 10646-2:2001

45 95,221 Philippine scripts Buhid, Hanunó'o, Tagalog, and Tagbanwa added.[10]
4.0 2003年4月 ISBN 978-0-321-18578-5 ISO/IEC 10646:2003 52 96,447 Cypriot syllabary, Limbu, Linear B, Osmanya, Shavian, Tai Le, and Ugaritic added, as well as Hexagram symbols.[11]
4.1 2005年3月 ISO/IEC 10646:2003與其第1修訂版 59 97,720 Buginese, Glagolitic, Kharoshthi, New Tai Lue, Old Persian, Syloti Nagri, and Tifinagh added, and Coptic was disunified from Greek. Ancient Greek numbers and musical symbols were also added.[12]
5.0 2006年7月 ISBN 978-0-321-48091-0 ISO/IEC 10646:2003與其第1、2修訂版,以及第3修訂版中新增的4個字元 64 99,089 Balinese, Cuneiform, N'Ko, Phags-pa, and Phoenician added.[13]
5.1 2008年4月 ISO/IEC 10646:2003與其第1-4修訂版 75 100,713 Carian, Cham, Kayah Li, Lepcha, Lycian, Lydian, Ol Chiki, Rejang, Saurashtra, Sundanese, and Vai added, as well as sets of symbols for the Phaistos Disc, Mahjong tiles, and Domino tiles. There were also important additions for Burmese, additions of letters and Scribal abbreviations used in medieval manuscripts, and the addition of capital ß.[14]
5.2 2009年10月 ISO/IEC 10646:2003與其第1-6修訂版 90 107,361 Avestan, Bamum, Egyptian hieroglyphs (the Gardiner Set, comprising 1,071 characters), Imperial Aramaic, Inscriptional Pahlavi, Inscriptional Parthian, Javanese, Kaithi, Lisu, Meetei Mayek, Old South Arabian, Old Turkic, Samaritan, Tai Tham and Tai Viet added. 4,149 additional CJK Unified Ideographs (CJK-C), as well as extended Jamo for Old Hangul, and characters for Vedic Sanskrit.[15]
6.0 2010年10月 ISO/IEC 10646:2010與印度盧比符號英語Indian rupee sign 93 109,449 Batak, Brahmi, Mandaic, playing card symbols, transport and map symbols, alchemical symbols, emoticons and emoji. 222 additional CJK Unified Ideographs (CJK-D) added.[16]
6.1 2012年1月 ISO/IEC 10646:2012 100 110,181 Chakma, Meroitic cursive, Meroitic hieroglyphs, Miao, Sharada, Sora Sompeng, and Takri.[17]
6.2 2012年9月 ISO/IEC 10646:2012與土耳其里拉符號 100 110,182 土耳其里拉符號[18]
6.3 2013年9月 ISO/IEC 10646:2012與6個字元 100 110,187 5 bidirectional formatting characters.[19]
7.0 2014年6月 ISO/IEC 10646:2012與其第1、2修訂版,以及俄羅斯盧布符號 123 113,021 Bassa Vah, Caucasian Albanian, Duployan, Elbasan, Grantha, Khojki, Khudawadi, Linear A, Mahajani, Manichaean, Mende Kikakui, Modi, Mro, Nabataean, Old North Arabian, Old Permic, Pahawh Hmong, Palmyrene, Pau Cin Hau, Psalter Pahlavi, Siddham, Tirhuta, Warang Citi, and Dingbats.[20]
8.0 2015年6月 ISO/IEC 10646:2014與其第1修訂版,以及喬治亞拉里符號、9個中日韓統一表意文字與41個表情符號[21] 129 120,737 Ahom, Anatolian hieroglyphs, Hatran, Multani, Old Hungarian, SignWriting, 5,771 CJK unified ideographs, a set of lowercase letters for Cherokee, and five emoji skin tone modifiers[22]

Unicode的編碼和實作[編輯]

大概來說,Unicode編碼系統可分為編碼方式和實作方式兩個層次。

編碼方式[編輯]

統一碼的編碼方式與ISO 10646通用字符集概念相對應。目前實際應用的統一碼版本對應於UCS-2,使用16的編碼空間。也就是每個字符占用2個位元組。這樣理論上一共最多可以表示216(即65536)個字符。基本滿足各種語言的使用。實際上目前版本的統一碼並未完全使用這16位元編碼,而是保留了大量空間以作為特殊使用或將來擴充功能。

上述16位元統一碼字符構成基本多文種平面。最新(但未實際廣泛使用)的統一碼版本定義了16個輔助平面,兩者合起來至少需要占據21位的編碼空間,比3位元組略少。但事實上輔助平面字符仍然占用4位元組編碼空間,與UCS-4保持一致。未來版本會擴充到ISO 10646-1實作級別3,即涵蓋UCS-4的所有字符。UCS-4是一個更大的尚未填充完全的31位元字符集,加上恆為0的首位,共需占據32位元,即4位元組。理論上最多能表示231個字符,完全可以涵蓋一切語言所用的符號。

基本多文種平面的字符的編碼為U+hhhh,其中每個h代表一個十六進位數字,與UCS-2編碼完全相同。而其對應的4位元組UCS-4編碼後兩個位元組一致,前兩個位元組則所有位均為0。

關於統一碼和ISO 10646及UCS的詳細關係,見通用字符集

實作方式[編輯]

Unicode的實作方式不同於編碼方式。一個字符的Unicode編碼是確定的。但是在實際傳輸過程中,由於不同系統平台的設計不一定一致,以及出於節省空間的目的,對Unicode編碼的實作方式有所不同。Unicode的實作方式稱為Unicode轉換格式(Unicode Transformation Format,簡稱為UTF)

例如,如果一個僅包含基本7位ASCII字符的Unicode檔案,如果每個字符都使用2位元組的原Unicode編碼傳輸,其第一位元組的8位元始終為0。這就造成了比較大的浪費。對於這種情況,可以使用UTF-8編碼,這是一種變長編碼,它將基本7位ASCII字符仍用7位編碼表示,占用一個位元組(首位補0)。而遇到與其他Unicode字符混合的情況,將按一定演算法轉換,每個字符使用1-3個位元組編碼,並利用首位為0或1進行識別。這樣對以7位ASCII字符為主的西文文件就大幅節省了編碼長度(具體方案參見UTF-8)。類似的,對未來會出現的需要4個位元組的輔助平面字符和其他UCS-4擴充字符,2位元組編碼的UTF-16也需要通過一定的演算法進行轉換。

再如,如果直接使用與Unicode編碼一致(僅限於BMP字符)的UTF-16編碼,由於每個字符占用了兩個位元組,在麥金塔電腦Mac)機和個人電腦上,對位元組順序的理解是不一致的。這時同一位元組流可能會被解釋為不同內容,如某字符為十六進位編碼4E59,按兩個位元組拆分為4E和59,在Mac上讀取時是從低位元組開始,那麼在Mac OS會認為此4E59編碼為594E,找到的字符為「奎」,而在Windows上從高位元組開始讀取,則編碼為U+4E59的字符為「乙」。就是說在Windows下以UTF-16編碼儲存一個字符「乙」,在Mac OS環境下開啟會顯示成「奎」。此類情況說明UTF-16的編碼順序若不加以人為定義就可能發生混淆,於是在UTF-16編碼實作方式中使用了大端序(Big-Endian,簡寫為UTF-16 BE)、小端序(Little-Endian,簡寫為UTF-16 LE)的概念,以及可附加的位元組順序記號解決方案,目前在PC機上的Windows系統和Linux系統對於UTF-16編碼預設使用UTF-16 LE。(具體方案參見UTF-16

此外Unicode的實作方式還包括UTF-7PunycodeCESU-8SCSUUTF-32GB18030等,這些實作方式有些僅在一定的國家和地區使用,有些則屬於未來的規劃方式。目前通用的實作方式是UTF-16小端序(LE)、UTF-16大端序(BE)和UTF-8。在微軟公司Windows XP附帶的記事本(Notepad)中,「另存為」對話方塊可以選擇的四種編碼方式除去非Unicode編碼的ANSI(對於英文系統即ASCII編碼,中文系統則為GB2312Big5編碼)外,其餘三種為「Unicode」(對應UTF-16 LE)、「Unicode big endian」(對應UTF-16 BE)和「UTF-8」。

目前輔助平面的工作主要集中在第二和第三平面的中日韓統一表意文字中,因此包括GBKGB18030Big5簡體中文繁體中文日文韓文以及越南喃字的各種編碼與Unicode的協調性被重點關注。考慮到Unicode最終要涵蓋所有的字符。從某種意義而言,這些編碼方式也可視作Unicode的出現於其之前的既成事實的實作方式,如同ASCII及其擴充功能Latin-1一樣,後兩者的字符在16位元Unicode編碼空間中的編碼第一位元組各位全為0,第二位元組編碼與原編碼完全一致。但上述東亞語言編碼與Unicode編碼的對應關係要複雜得多。

Unicode字符平面對映[編輯]

非Unicode環境[編輯]

在非Unicode環境下,由於不同國家和地區採用的字符集不一致,很可能出現無法正常顯示所有字符的情況。微軟公司使用了內碼表(Codepage)轉換表的技術來過渡性的部分解決這一問題,即通過指定的轉換表將非Unicode的字符編碼轉換為同一字符對應的系統內部使用的Unicode編碼。可以在「語言與區域設定」中選擇一個內碼表作為非Unicode編碼所採用的預設編碼方式,如936為簡體中文GB碼,950為繁體中文Big5(皆指PC上使用的)。在這種情況下,一些非英語的歐洲語言編寫的軟體和文件很可能出現亂碼。而將內碼表設定為相應語言中文處理又會出現問題,這一情況無法避免。只有完全採用統一編碼才能徹底解決這些問題,但目前尚無法做到這一點。

內碼表技術現在廣泛為各種平台所採用。UTF-7的內碼表是65000,UTF-8的內碼表是65001。

XML和Unicode[編輯]

XML及其子集XHTML採用UTF-8作為標準字集,理論上我們可以在各種支援XML標準的瀏覽器上顯示任何地區文字的網頁,只要電腦本身安裝有合適的字型即可。可以利用&#nnn;的格式顯示特定的字符。nnn代表該字符的十進位Unicode代碼。如果採用十六進位代碼,在編碼之前加上x字符即可。但部分舊版本的瀏覽器可能無法識別十六進位代碼。

過去電腦編碼的8位元標準,使每個國家都只按國家使用的字符而編定各自的編碼系統;而對於部份字符系統比較複雜的語言,如越南語,又或者東亞國家的大型字符集,都不能在8位元的環境下正常顯示。

只是最近才有在文字中對十六進位的支援,那麼舊版本的瀏覽器顯示那些字符或許可能有問題-大概首先會遇到的一個問題只是在對於大於8位元Unicode字符的顯示。解決這個問題的普遍做法仍然是將其中的十六進位碼轉換成一個十進位碼(例如:♠代替♠)。

也有一些字符集標準將一些常用的標誌存放在字符內碼外面,那麼你可能使用象這樣的文字標誌來表示一個長劃(—)的情況,即使它的字符內碼已經被使用,這些標準也不包含那個字符。

然而部分由於Unicode版本發展原因,很多瀏覽器只能顯示UCS-2完整字符集,也即現在使用的Unicode版本中的一個小子集。下表可以檢驗您的瀏覽器如何顯示各種Unicode代碼:

代碼 字符標準名稱(英語) 在瀏覽器上的顯示
A 大寫拉丁字母「A」 A
ß 小寫拉丁字母「Sharp S」 ß
þ 小寫拉丁字母「Thorn」 þ
Δ 大寫希臘字母「Delta」 Δ
Й 大寫斯拉夫字母「Short I」 Й
ק 希伯來字母「Qof」 ק
م 阿拉伯字母「Meem」 م
๗ 泰文數字7
ቐ 衣索比亞音節文字「Qha」
あ 日語平假名「A」
ア 日語片假名「A」
叶 簡體漢字「叶」
葉 正體漢字「葉」
엽 韓國音節文字「Yeop」

一些多語言支援的網頁瀏覽器,比如微軟Windows系統的Internet Explorer 5.5及以上版本,以及跨平台的瀏覽器MozillaNetscape 6,可以在安裝時根據需要動態地使用相應的字符集,預先安裝了合適的語言套件,就可以同時顯示頁面上的各種Unicode字符。Internet Explorer 5.5還提出使用者可以在需要新字型時,即裝即用。另外的瀏覽器如Netscape Navigator 4.77,則只能顯示跟頁面編碼相應字符集中的文字。當你使用後一種瀏覽器時,你不大可能預先安裝所有的字型,即使有了字型,瀏覽器也不一定能將這些字型完全應用起來。可能遇到的情況是,這種瀏覽器只能夠顯示部分文字,因為它們是按照標準進行編碼,儘管理論上在相容的系統中,只要有了相應的Code2000字型,就可以正確顯示。一種變通的辦法,是將某些少見的字符,通過「名稱實體參照」的方式來使用。

輸入方法[編輯]

不同的作業系統,各有直接輸入Unicode字符的方法:

SGMLHTMLXML的文字中,使用字符值參照字符實體參照表示一個Unicode字符。

中文輸入法[編輯]

截至2011年10月,可以使用微軟拼音2003或2007版本,倉頡輸入法第三代第五代第六代版本,鄭碼Unicode版本,海峰五筆9.3版本,新注音輸入法VimIM進行輸入。

  • 微軟拼音輸入法啟動狀態下,單擊語言欄上的「功能選單」按鈕,指向「輔助輸入法」即可發現「Unicode碼輸入方式」,利用它可以直接輸入Unicode相應十六進制值的方式輸入相應文字。例如中文「胥」輸入「5066」,朝鮮文字「셅」輸入「c145」(不需要在前面加0x或x)。
  • 倉頡輸入法已爲Unicode漢字、類漢字編碼,可以在倉頡輸入法方式下通過倉頡碼輸入方式輸入Unicode內的中日韓漢字及韓文。以倉頡輸入法第五代爲例,例如漢字「㗎」輸入「口大口木」,漢字「胥」輸入「弓人月」,漢字「㿱」輸入「手中木竹水」,朝鮮文字「닮」輸入「尸卜尸女口」。
  • 鄭碼已爲Unicode漢字、類漢字編碼,可以在鄭碼輸入法方式下通過鄭碼字碼輸入方式輸入Unicode內的中日韓漢字及韓文。例如漢字「㗎」輸入「JYJF」,漢字「胥」輸入「XIQ」,漢字「㿱」輸入「DPXI」,朝鮮文字「길」輸入「XIYY」。
  • 海峰五筆此輸入法已經直接支援透過五筆碼輸入方式輸入Unicode內的任意中日韓漢字,但無法使用鍵入Unicode碼的方式輸入。例如漢字(Unicode部分)「㗎」為「keks」,CJK擴展B區的「𣿱」為「iyho」和CJK擴展C區的「𫆦」為「muih」。
  • 注音輸入法在輸入法啟動狀態時,打入鍵盤上的「多功能前導字元鍵」(及通用鍵盤上之「`」),第一次使用會彈出說明。輸入Unicode字元「胥」則是在鍵盤上鍵入「`U5066」。而韓語中的「셅」,則輸入「`UC145」。而要輸入日語自製漢字「峠」,則是「`U5CE0」。
  • VimIM在Vim環境中,可以直接鍵入十進制或十六進制Unicode碼。既不需要啟動輸入法,也不需要碼表。
  • 嘸蝦米輸入法,支援Unicode,以26個英文字母為組字按鍵,支援基本正體中文、簡體中文外,還可直接輸入符號、日文漢字平假名片假名

日文輸入法[編輯]

使用Microsoft IME 2007,可以在IME PAD裡找到Unicode的點擊表。點擊字符即可輸入。選擇字型可以預覽字符效果。

其他[編輯]

除了輸入法外,操作系統也會提供另外幾種方法輸入Unicode。像是Windows 2000之後的Windows系統就提供一個可點擊的字符對映表。又或者在Microsoft Word下,按下Alt鍵不放,輸入0和某個字符的Unicode編碼(十進位),再鬆開Alt鍵即可得到該字符,如Alt + 033865會得到Unicode字元。另外按Alt + X組合鍵,MS Word也會將光標前面的字符同其十六進位的四位Unicode編碼進行互相轉換。

漢字問題[編輯]

統一碼這種為數萬漢字逐一編碼的方式很浪費資源,且要把漢字增加到標準中也並不容易,因此去研究以漢字部件產生漢字的方法(如動態組字),期望取代為漢字逐一編碼的方法。Unicode委員會在關於中文和日語的常用問題清單[23]裏回答了此問題。主要問題是漢字中各個元件的相對大小不是固定的。比如「員」字,由「口」和「貝」組成,而「唄」也是由「口」和「貝」組成,但其相對位置和大小並不一致。還有一些其他原因,比如字符比較和排序時需要先對編碼流進行分析後才能得到各個字符,增加處理程式複雜性等。

另一個問題是:由於中國歷代字書有收錄訛字(即錯別字)的習慣,因此Unicode編碼中收入大量訛字,占據大量空間,引發批評[來源請求]。電腦檔案中若使用錯訛字,在用正確字做檢索時,用錯訛字寫出的同一個詞語無法檢出。

注釋[編輯]

  1. ^ The number of characters listed for each version of Unicode is the total number of graphic, format and control characters (i.e., excluding private-use characters, noncharacters and surrogate code points).

參考文獻[編輯]

  1. ^ The Unicode Standard 第五版. Addison-Wesley Professional. ISBN 0321480910. 
  2. ^ Unicode
  3. ^ Unicode Data 1.0.0. [2010-03-16]. 
  4. ^ Unicode Data 1.0.1. [2010-03-16]. 
  5. ^ Unicode Data 1995. [2010-03-16]. 
  6. ^ Unicode Data-2.0.14. [2010-03-16]. 
  7. ^ Unicode Data-2.1.2. [2010-03-16]. 
  8. ^ Unicode Data-3.0.0. [2010-03-16]. 
  9. ^ Unicode Data-3.1.0. [2010-03-16]. 
  10. ^ Unicode Data-3.2.0. [2010-03-16]. 
  11. ^ Unicode Data-4.0.0. [2010-03-16]. 
  12. ^ Unicode Data. [2010-03-16]. 
  13. ^ Unicode Data 5.0.0. [2010-03-17]. 
  14. ^ Unicode Data 5.1.0. [2010-03-17]. 
  15. ^ Unicode Data 5.2.0. [2010-03-17]. 
  16. ^ Unicode Data 6.0.0. [2010-10-11]. 
  17. ^ Unicode Data 6.1.0. [2012-01-31]. 
  18. ^ Unicode Data 6.2.0. [2012-09-26]. 
  19. ^ Unicode Data 6.3.0. [2013-09-30]. 
  20. ^ Unicode Data 7.0.0. [2014-06-15]. 
  21. ^ Unicode 8.0.0. Unicode Consortium. [2015-06-17]. 
  22. ^ Unicode Data 8.0.0. [2015-06-17]. 
  23. ^ Why doesn't the Unicode Standard adopt a compositional model for encoding Han ideographs? Wouldn't that save a large number of code points?

外部連結[編輯]

Wikibooks-logo.svg
您可以在維基教科書中尋找此百科條目的相關電子教程:

參見[編輯]