本頁使用了標題或全文手工轉換

Unicode

維基百科,自由的百科全書
跳至導覽 跳至搜尋
Unicode標誌

Unicode(中文:萬國碼、國際碼、統一碼、單一碼)是電腦科學領域裡的一項業界標準。它對世界上大部分的文字系統進行了整理、編碼,使得電腦可以用更為簡單的方式來呈現和處理文字。

Unicode 伴隨著通用字元集的標準而發展,同時也以書本的形式[1]對外發表。Unicode 至今仍在不斷增修,每個新版本都加入更多新的字元。目前最新的版本為2019年5月公布的12.1.0[2],已經收錄超過13萬個字元(第十萬個字元在2005年獲採納)。Unicode涵蓋的資料除了視覺上的字形、編碼方法、標準的字元編碼外,還包含了字元特性,如大小寫字母。

Unicode發展由非營利機構統一碼聯盟負責,該機構致力於讓 Unicode 方案取代既有的字元編碼方案。因為既有的方案往往空間非常有限,亦不適用於多語環境。

Unicode備受認可,並廣泛地應用於電腦軟體的國際化與在地化過程。有很多新科技,如可延伸標示語言(Extensible Markup Language,簡稱:XML)、Java程式語言以及現代的作業系統,都採用Unicode編碼。

起源與發展[編輯]

Unicode是為了解決傳統的字元編碼方案的侷限而產生的,例 ISO 8859-1所定義的字元雖然在不同的國家中廣泛地使用,可是在不同國家間卻經常出現不相容的情況。很多傳統的編碼方式都有一個共同的問題,即容許電腦處理雙語環境(通常使用拉丁字母以及其本地語言),但卻無法同時支援多語言環境(指可同時處理多種語言混合的情況)。

Unicode 編碼包含了不同寫法的字,如「ɑa」、「強/强」、「戶/户/戸」。然而在漢字方面引起了一字多形的認定爭議(詳見中日韓統一表意文字主題)。

在文字處理方面,統一碼為每一個字元而非字形定義唯一的程式碼(即一個整數)。換句話說,統一碼以一種抽象的方式(即數字)來處理字元,並將視覺上的演繹工作(例如字體大小、外觀形狀、字體形態、文體等)留給其他軟體來處理,例如網頁瀏覽器或是文字處理器。

目前,幾乎所有電腦系統都支援基本拉丁字母,並各自支援不同的其他編碼方式。Unicode為了和它們相互相容,其首 256 個字元保留給 ISO 8859-1 所定義的字元,使既有的西歐語系文字的轉換不需特別考量;並且把大量相同的字元重複編到不同的字元碼中去,使得舊有紛雜的編碼方式得以和Unicode編碼間互相直接轉換,而不會遺失任何資訊。舉例來說,全形格式區段包含了主要的拉丁字母的全形格式,在中文、日文、以及韓文字形當中,這些字元以全形的方式來呈現,而不以常見的半形形式顯示,這對豎排文字和等寬排列文字有重要作用。

在表示一個 Unicode 的字元時,通常會用「U+」然後緊接著一組十六進位的數字來表示這一個字元。在基本多文種平面(英語:Basic Multilingual Plane,簡寫 BMP。又稱為「零號平面」、plane 0)裏的所有字元,要用四個數字(即兩個byte,共16 bits,例如 U+4AE0,共支援六萬多個字元);在零號平面以外的字元則需要使用五個或六個數字。舊版的 Unicode 標準使用相近的標記方法,但卻有些微小差異:在 Unicode 3.0 裏使用「U-」然後緊接著八個數字,而「U+」則必須隨後緊接著四個數字。

標準[編輯]

位於美國加州的Unicode組織允許任何願意支付會費的公司和個人加入,其成員包含了主要的電腦軟硬體廠商,例如Adobe系統蘋果公司惠普IBM微軟全錄等。

20世紀80年代末,組成 Unicode 組織的商業機構,和國際合作的國際標準化組織因為電腦普及和資訊國際化的前提下,分別各自成立了 Unicode 組織[3]和 ISO-10646 工作小組。他們不久便發現對方的存在,大家為著相同的目的而工作。1991 年,Unicode Consortium 與 ISO/IEC JTC1/SC2 同意保持 Unicode 碼表與 ISO 10646 標準保持相容並密切協調各自標準近一步的擴展。雖然實際上兩者的字集編碼相同,但實質上兩者確實為兩個不同的標準。Unicode 1.1 對應於 ISO 10646-1:1993,Unicode 3.0 對應於 ISO 10646-1:2000,Unicode 3.2 對應於 ISO 10646-2:2001,Unicode 4.0 對應於 ISO 10646:2003,Unicode 5.0 對應於 ISO 10646:2003 及附錄 1–3。

Unicode 自版本 2.0 開始保持了向下相容,即新的版本僅僅增加字元,原有字元不會被刪除或更名。

統一碼聯盟在 1991 年首次發布了 The Unicode Standard。Unicode 的開發結合了國際標準化組織所制定的 ISO/IEC 10646,即通用字元集。Unicode 與 ISO/IEC 10646 在編碼的運作原理相同,但 The Unicode Standard 包含了更詳盡的實現資訊、涵蓋了更細節的主題,諸如位元編碼(bitwise encoding)、校對以及呈現等。The Unicode Standard 也列舉了諸多的字元特性,包含了那些必須支援兩種閱讀方向的文字(由左至右或由右至左的文字閱讀方向,例如阿拉伯文是由右至左)。Unicode 與 ISO/IEC 10646 這兩個標準在術語上的使用有些微的不同。

在 2005 年,Unicode 的第十萬個字元被引入成為標準之一,該字元被用於馬拉雅拉姆語

歷史[編輯]

截至目前的 Unicode 各版本及其發布時間如下:

Unicode 版本
版本 發布日期 書籍 對應 ISO/IEC 10646 版本 文字數 字元數
總計[a] 已知的擴增
1.0.0 1991 年 10 月 ISBN 0-201-56788-1(Vol. 1) 24 7,161 最初包含的文字有:阿拉伯字母亞美尼亞字母孟加拉文注音符號西里爾字母天城文喬治亞字母希臘字母古吉拉特文古木基文諺文希伯來字母平假名卡納達文片假名寮文字拉丁字母馬拉雅拉姆文奧里亞文泰米爾文泰盧固文泰文字藏文[4]
1.0.1 1992 年 6 月 ISBN 0-201-60845-6(Vol. 2) 25 28,359 定義中日韓統一表意文字最初的 20,902 個字[5]
1.1 1993 年 6 月 ISO/IEC 10646-1:1993 24 34,233 於原有 2,350 個諺文字母的基礎上新增 4,306 個諺文字母。移除藏文[6]
2.0 1996 年 7 月 ISBN 0-201-48345-9 ISO/IEC 10646-1:1993 與其第 5-7 修訂版 25 38,950 移除原有的諺文字母設定,於新的編碼範圍更換成 11,172 個新的諺文字母。藏文重新加入,但編碼位置更換。代理字元機制建立,並將第 15 與第 16 平面分配給私人使用區[7]
2.1 1998 年 5 月 ISO/IEC 10646-1:1993 與其第 5-7 修訂版,以及第 18 修訂版中新增的 2 個字元 25 38,952 新增歐元符號物件替換字元[8]
3.0 1999 年 9 月 ISBN 0-201-61633-5 ISO/IEC 10646-1:2000 38 49,259 新增切羅基文衣索比亞語高棉語蒙古語緬甸語歐甘字母盧恩字母僧伽羅語敘利亞語它拿字母加拿大原住民音節文字彝文,以及部分盲文圖案。[9]
3.1 2001 年 3 月 ISO/IEC 10646-1:2000

ISO/IEC 10646-2:2001

41 94,205 新增猶他字母哥特字母古義大利字母音樂符號拜占庭音樂符號,追加了 42711 個中日韓統一表意文字CJK-B)。[10]
3.2 2002 年 3 月 ISO/IEC 10646-1:2000 與其第 1 修訂版

ISO/IEC 10646-2:2001

45 95,221 新增菲律賓文字布錫文哈努諾文他加祿語塔格巴奴亞文[11]
4.0 2003 年 4 月 ISBN 0-321-18578-1 ISO/IEC 10646:2003 52 96,447 新增賽普勒斯音節文字林布字母線形文字B奧斯曼亞字母蕭伯納字母德宏傣文烏加里特字母以及六十四卦[12]
4.1 2005 年 3 月 ISO/IEC 10646:2003 與其第1修訂版 59 97,720 新增布吉文格拉哥里字母佉盧文西雙版納傣文古波斯語錫爾赫特文提非納文科普特字母希臘語區段中分離了出來。新增了古希臘音樂符號[13]
5.0 2006 年 7 月 ISBN 0-321-48091-0 ISO/IEC 10646:2003 與其第 1、2 修訂版,以及第 3 修訂版中新增的 4 個字元 64 99,089 新增峇里語楔形文字西非書面文字八思巴文腓尼基字母[14]
5.1 2008 年 4 月 ISO/IEC 10646:2003 與其第 1-4 修訂版 75 100,713 新增卡利亞語占婆字母克耶黎語絨巴文利西亞語呂底亞語桑塔利文拉讓文索拉什特拉文巽他語瓦伊語。同時增加了斐斯托斯圓盤麻將多米諾骨牌上的符號。對緬甸語做了重要的補充,追加了手抄縮寫的額外字母,追加了大寫ẞ[15]
5.2 2009 年 10 月 ISBN 978-1-936213-00-9 ISO/IEC 10646:2003 與其第 1-6 修訂版 90 107,361 新增阿維斯陀語巴姆穆文字埃及象形文字加汀納符號表,涵蓋 1071 個符號),亞拉姆語巴拉維碑銘體帕提亞碑銘體爪哇語凱提文老傈僳文曼尼普爾文南阿拉伯字母古突厥語撒瑪利亞語老傣文傣越文。追加 4,149 個中日韓統一表意文字CJK-C),同時擴充了古韓語吠陀梵語的字元。[16]
6.0 2010 年 10 月 ISBN 978-1-936213-01-6 ISO/IEC 10646:2010 與印度盧比符號 93 109,449 新增巴塔克字母婆羅米文字曼達字母紙牌符號,交通標誌地圖符號,鍊金術符號顏文字繪文字。追加 222 個額外的中日韓統一表意文字CJK-D)。[17]
6.1 2012 年 1 月 ISBN 978-1-936213-02-3 ISO/IEC 10646:2012 100 110,181 新增查克馬字母麥羅埃文麥羅埃象形文字柏格理苗文夏拉達文索拉僧平文字泰克里文[18]
6.2 2012 年 9 月 ISBN 978-1-936213-07-8 ISO/IEC 10646:2012 與土耳其里拉符號 100 110,182 土耳其里拉符號[19]
6.3 2013 年 9 月 ISBN 978-1-936213-08-5 ISO/IEC 10646:2012 與 6 個字元 100 110,187 5 個雙向排版符號。[20]
7.0 2014 年 6 月 ISBN 978-1-936213-09-2 ISO/IEC 10646:2012 與其第 1、2 修訂版,以及俄羅斯盧布符號 123 113,021 新增巴薩字母高加索阿爾巴尼亞字母杜普雷嚴速記愛爾巴桑字母古蘭塔文可吉文庫達瓦迪文線形文字A馬哈佳尼文摩尼教字母門得文字莫迪字母默文納巴泰字母古北阿拉伯文古彼爾姆文楊松錄苗文帕米拉文字袍清豪文詩篇巴列維文悉曇文字提爾胡塔文瓦蘭齊地文以及裝飾符號[21]
8.0 2015 年 6 月 ISBN 978-1-936213-10-8 ISO/IEC 10646:2014 與其第 1 修訂版,以及喬治亞拉里符號、9 個中日韓統一表意文字與 41 個表情符號[22] 129 120,737 增加阿洪姆文安納托利亞象形文字哈坦文穆爾塔尼文古匈牙利字母書寫符號,5,771 個中日韓統一表意文字字元(CJK-E),切羅基語小寫字母,以及五種繪文字膚色修改字元。[23]
9.0 2016 年 6 月 ISBN 978-1-936213-13-9 ISO/IEC 10646:2014 與其第 1、2 修訂版,阿德拉姆字母、尼泊爾紐瓦字母、日本電視符號和 74 個繪文字表情與符號。[24] 135 128,237 新增阿德拉姆字母比奇舒奇文象雄文尼泊爾紐瓦字母歐塞奇字母西夏文以及 74 個繪文字[25]
10.0 2017 年 6 月 ISBN 978-1-936213-16-0 ISO/IEC 10646:2017,新增 56 個繪文字符號,385 個變體假名字元,和 3 個札那巴札爾字元[26] 139 136,755 札那巴札爾索永布文字馬薩拉姆貢德文字女書變體假名(非標準平假名),7,494 個中日韓統一表意文字CJK-F)與 56 個繪文字[27]
11.0 2018 年 6 月 ISBN 978-1-936213-19-1 ISO/IEC 10646:2017與其第 1 修訂版,新增 145 個繪文字符號,5 個急用漢字,Copyleft 符號,中國象棋 符號等[28] 146 137,374 多格拉文喬治亞文騎士體大寫字母、貢賈拉貢德文哈乃斐羅興亞文字望加錫文梅德法伊德林文老粟特文粟特文以及 145 個繪文字[29]
12.0 2019 年 3 月 ISBN 978-1-936213-22-1 ISO/IEC 10646:2017 與其第1、2修訂版,新增61個繪文字符號,一些方言苗文字元,古日語用小型日語假名泰米爾文的符號,聖書體控制字元等[2] 150 137,928 埃利邁文南迪城文創世紀苗文文喬文以及 61 個繪文字[30]
12.1 2019年5月 150 137,929 只在U+32FF新增了一個字元,即日本新年號令和的合字。[31]

Unicode 的編碼和實現[編輯]

大概來說,Unicode 編碼系統可分為編碼方式和實現方式兩個層次。

10大設計原則[編輯]

《The Unicode Standard Version 6.2 – Core Specification》[32] 文件給出了 Unicode 的十大設計原則:

  • Universality:提供單一、綜合的字元集,編碼一切現代與大部分歷史文獻的字元。
  • Efficiency:易於處理與分析。
  • Characters, not glyphs:字元,而不是字形。
  • Semantics:字元要有良好定義的語意
  • Plain text:僅限於文字字元
  • Logical order:預設記憶體表示是其邏輯序
  • Unification:把不同語言的同一書寫系統(scripts)中相同字元統一起來。
  • Dynamic composition:附加符號可以動態組合。
  • Stability:已分配的字元與語意不再改變。
  • Convertibility:Unicode 與其他著名字元集可以精確轉換。

編碼方式[編輯]

統一碼的編碼方式與 ISO 10646通用字元集概念相對應。目前實際應用的統一碼版本對應於 UCS-2,使用 16 的編碼空間。也就是每個字元占用 2 個位元組。這樣理論上一共最多可以表示 216(即 65536)個字元。基本滿足各種語言的使用。實際上目前版本的統一碼並未完全使用這 16 位編碼,而是保留了大量空間以作為特殊使用或將來擴充。

上述 16 位統一碼字元構成基本多文種平面。最新(但未實際廣泛使用)的統一碼版本定義了 16 個輔助平面,兩者合起來至少需要占據 21 位的編碼空間,比 3 位元組略少。但事實上輔助平面字元仍然占用 4 位元組編碼空間,與 UCS-4 保持一致。未來版本會擴充到 ISO 10646-1 實現級別 3,即涵蓋 UCS-4 的所有字元。UCS-4 是一個更大的尚未填充完全的 31 位字元集,加上恆為 0 的首位,共需占據 32 位,即 4 位元組。理論上最多能表示 231個字元,完全可以涵蓋一切語言所用的符號。

基本多文種平面的字元的編碼為 U+hhhh,其中每個 h 代表一個十六進位數字,與 UCS-2 編碼完全相同。而其對應的 4 位元組 UCS-4 編碼後兩個位元組一致,前兩個位元組則所有位均為 0。

關於統一碼和 ISO 10646 及 UCS 的詳細關係,見通用字元集

實現方式[編輯]

Unicode 的實現方式不同於編碼方式。一個字元的 Unicode 編碼是確定的。但是在實際傳輸過程中,由於不同系統平台的設計不一定一致,以及出於節省空間的目的,對 Unicode 編碼的實現方式有所不同。Unicode 的實現方式稱為 Unicode轉換格式(Unicode Transformation Format,簡稱為 UTF)。

例如,如果一個僅包含基本 7 位 ASCII 字元的 Unicode 檔案,如果每個字元都使用 2 位元組的原 Unicode 編碼傳輸,其第一位元組的 8 位始終為 0。這就造成了比較大的浪費。對於這種情況,可以使用 UTF-8 編碼,這是一種變長編碼,它將基本 7 位 ASCII 字元仍用 7 位編碼表示,占用一個位元組(首位補 0)。而遇到與其他 Unicode 字元混合的情況,將按一定演算法轉換,每個字元使用 1-3 個位元組編碼,並利用首位為 0 或 1 進行辨識。這樣對以7位ASCII字元為主的西文文件就大幅節省了編碼長度(具體方案參見 UTF-8)。類似的,對未來會出現的需要 4 個位元組的輔助平面字元和其他 UCS-4 擴充字元,2 位元組編碼的 UTF-16 也需要通過一定的演算法進行轉換。

再如,如果直接使用與 Unicode 編碼一致(僅限於 BMP 字元)的 UTF-16 編碼,由於每個字元占用了兩個位元組,在麥金塔電腦Mac)機和個人電腦上,對位元組順序的理解是不一致的。這時同一位元組流可能會被解釋為不同內容,如某字元為十六進位編碼 4E59 ,按兩個位元組拆分為 4E 和 59,在 Mac 上讀取時是從低位元組開始,那麼在 Mac OS 會認為此 4E59 編碼為 594E,找到的字元為「奎」,而在 Windows 上從高位元組開始讀取,則編碼為 U+4E59 的字元為「乙」。就是說在 Windows 下以 UTF-16 編碼儲存一個字元「乙」,在 Mac OS 環境下開啟會顯示成「奎」。此類情況說明 UTF-16 的編碼順序若不加以人為定義就可能發生混淆,於是在 UTF-16 編碼實現方式中使用了大端序(Big-Endian,簡寫為 UTF-16 BE)、小端序(Little-Endian,簡寫為 UTF-16 LE)的概念,以及可附加的位元組順序記號解決方案,目前在 PC 機上的 Windows 系統和 Linux 系統對於 UTF-16 編碼預設使用 UTF-16 LE。(具體方案參見UTF-16

此外 Unicode 的實現方式還包括 UTF-7PunycodeCESU-8SCSUUTF-32GB18030 等,這些實現方式有些僅在一定的國家和地區使用,有些則屬於未來的規劃方式。目前通用的實現方式是 UTF-16 小端序(LE)、UTF-16 大端序(BE)和 UTF-8。在微軟公司 Windows XP 附帶的記事本(Notepad)中,「另存為」對話方塊可以選擇的四種編碼方式除去非 Unicode 編碼的 ANSI(對於英文系統即 ASCII 編碼,中文系統則為 GB2312Big5 編碼)外,其餘三種為「Unicode」(對應 UTF-16 LE)、「Unicode big endian」(對應 UTF-16 BE)和「UTF-8」。

目前輔助平面的工作主要集中在第二和第三平面的中日韓統一表意文字中,因此包括 GBKGB18030Big5簡體中文繁體中文日文韓文以及越南喃字的各種編碼與 Unicode 的協調性被重點關注。考慮到 Unicode 最終要涵蓋所有的字元。從某種意義而言,這些編碼方式也可視作 Unicode 的出現於其之前的既成事實的實現方式,如同 ASCII 及其擴充 Latin-1 一樣,後兩者的字元在 16 位 Unicode 編碼空間中的編碼第一位元組各位全為 0,第二位元組編碼與原編碼完全一致。但上述東亞語言編碼與 Unicode 編碼的對應關係要複雜得多。

Unicode 字元平面對映[編輯]

非 Unicode 環境[編輯]

在非 Unicode 環境下,由於不同國家和地區採用的字元集不一致,很可能出現無法正常顯示所有字元的情況。微軟公司使用了頁碼(Codepage)轉換表的技術來過渡性的部分解決這一問題,即通過指定的轉換表將非 Unicode 的字元編碼轉換為同一字元對應的系統內部使用的 Unicode 編碼。可以在「語言與區域設定」中選擇一個頁碼作為非 Unicode 編碼所採用的預設編碼方式,如936為簡體中文GB碼,950為繁體中文Big5(皆指PC上使用的)。在這種情況下,一些非英語的歐洲語言編寫的軟體和文件很可能出現亂碼。而將頁碼設定為相應語言中文處理又會出現問題,這一情況無法避免。只有完全採用統一編碼才能徹底解決這些問題,但目前尚無法做到這一點。

頁碼技術現在廣泛為各種平台所採用。UTF-7 的頁碼是 65000,UTF-8 的頁碼是 65001。

XML和Unicode[編輯]

XML 及其子集 XHTML 採用 UTF-8 作為標準字集,理論上我們可以在各種支援 XML 標準的瀏覽器上顯示任何地區文字的網頁,只要電腦本身安裝有合適的字型即可。可以利用&#nnn;的格式顯示特定的字元。nnn 代表該字元的十進位 Unicode 程式碼。如果採用 十六進位 程式碼,在編碼之前加上x字元即可。但部分舊版本的瀏覽器可能無法辨識十六進位程式碼。

過去電腦編碼的 8 位標準,使每個國家都只按國家使用的字元而編定各自的編碼系統;而對於部份字元系統比較複雜的語言,如越南語,又或者東亞國家的大型字元集,都不能在 8 位的環境下正常顯示。

只是最近才有在文字中對十六進位的支援,那麼舊版本的瀏覽器顯示那些字元或許可能有問題-大概首先會遇到的一個問題只是在對於大於 8 位 Unicode 字元的顯示。解決這個問題的普遍做法仍然是將其中的十六進位碼轉換成一個十進位碼(例如:♠代替♠)。

也有一些字元集標準將一些常用的標誌存放在字元內碼外面,那麼你可能使用象這樣的文字標誌來表示一個長劃(—)的情況,即使它的字元內碼已經被使用,這些標準也不包含那個字元。

然而部分由於 Unicode 版本發展原因,很多瀏覽器只能顯示 UCS-2 完整字元集,也即現在使用的 Unicode 版本中的一個小子集。下表可以檢驗您的瀏覽器如何顯示各種 Unicode 程式碼:

程式碼 字元標準名稱(英語) 在瀏覽器上的顯示
A 大寫拉丁字母「A」 A
ß 小寫拉丁字母「Sharp S」 ß
þ 小寫拉丁字母「Thorn」 þ
Δ 大寫希臘字母「Delta」 Δ
Й 大寫斯拉夫字母「Short I」 Й
ק 希伯來字母「Qof」 ק
م 阿拉伯字母「Meem」 م
๗ 泰文數字 7
ቐ 衣索比亞音節文字「Qha」
あ 日語平假名「A」
ア 日語片假名「A」
叶 簡體漢字「叶」
葉 正體漢字「葉」
엽 韓國音節文字「Yeop」

一些多語言支援的網頁瀏覽器,比如微軟 Windows 系統的 Internet Explorer 5.5 及以上版本,以及跨平台的瀏覽器 MozillaNetscape 6,可以在安裝時根據需要動態地使用相應的字元集,預先安裝了合適的語言套件,就可以同時顯示頁面上的各種Unicode字元。Internet Explorer 5.5 還提出用戶可以在需要新字型時,即裝即用。另外的瀏覽器如 Netscape Navigator 4.77,則只能顯示跟頁面編碼相應字元集中的文字。當你使用後一種瀏覽器時,你不大可能預先安裝所有的字型,即使有了字型,瀏覽器也不一定能將這些字型完全應用起來。可能遇到的情況是,這種瀏覽器只能夠顯示部分文字,因為它們是按照標準進行編碼,儘管理論上在相容的系統中,只要有了相應的 Code2000 字型,就可以正確顯示。一種變通的辦法,是將某些少見的字元,通過「名稱實體參照」的方式來使用。

輸入方法[編輯]

不同的作業系統,各有直接輸入 Unicode 字元的方法:

SGMLHTMLXML 的文字中,使用字元值參照字元實體參照表示一個 Unicode 字元。

中文輸入法[編輯]

截至 2011 年 10 月,可以使用微軟拼音 2003 或 2007 版本,倉頡輸入法第三代第五代第六代版本,鄭碼Unicode版本,海峰五筆9.3版本,新注音輸入法VimIM 進行輸入。

  • 微軟拼音輸入法啟動狀態下,單擊語言欄上的「功能選單」按鈕,指向「輔助輸入法」即可發現「Unicode 碼輸入方式」,利用它可以直接輸入 Unicode 相應十六進制值的方式輸入相應文字。例如中文「胥」輸入「5066」,朝鮮文字「셅」輸入「c145」(不需要在前面加 0x 或 x)。新版本下也可以輸入VUC(大小寫不敏感)再輸入編碼。
  • 倉頡輸入法已爲 Unicode 漢字、類漢字編碼,可以在倉頡輸入法方式下通過倉頡碼輸入方式輸入 Unicode 內的中日韓漢字及韓文。以倉頡輸入法第五代爲例,例如漢字「㗎」輸入「口大口木」,漢字「胥」輸入「弓人月」,漢字「㿱」輸入「手中木竹水」,朝鮮文字「닮」輸入「尸卜尸女口」。
  • 鄭碼已爲 Unicode 漢字、類漢字編碼,可以在鄭碼輸入法方式下通過鄭碼字碼輸入方式輸入 Unicode 內的中日韓漢字及韓文。例如漢字「㗎」輸入「JYJF」,漢字「胥」輸入「XIQ」,漢字「㿱」輸入「DPXI」,朝鮮文字「길」輸入「XIYY」。
  • 海峰五筆此輸入法已經直接支援透過五筆碼輸入方式輸入 Unicode 內的任意中日韓漢字,但無法使用鍵入 Unicode 碼的方式輸入。例如漢字(Unicode 部分)「㗎」為「keks」,CJK 擴展 B 區的「𣿱」為「iyho」和 CJK 擴展 C 區的「𫆦」為「muih」。
  • 注音輸入法在輸入法啟動狀態時,打入鍵盤上的「多功能前導字元鍵」(即通用鍵盤上之「`」),第一次使用會彈出說明。輸入 Unicode 字元「胥」則是在鍵盤上鍵入「`U5066」。而韓語中的「셅」,則輸入「`UC145」。而要輸入日語自製漢字「峠」,則是「`U5CE0」。
  • VimIM 在 Vim 環境中,可以直接鍵入十進制或十六進制 Unicode 碼。既不需要啟動輸入法,也不需要碼表。
  • 嘸蝦米輸入法,支援 Unicode,以26個英文字母為組字按鍵,支援基本正體中文、簡體中文外,還可直接輸入符號、日文漢字平假名片假名

日文輸入法[編輯]

使用 Microsoft IME 2007,可以在IME PAD裡找到Unicode的點選表。點選字元即可輸入。選擇字型可以預覽字元效果。

其他[編輯]

除了輸入法外,作業系統也會提供另外幾種方法輸入Unicode。像是 Windows 2000 之後的 Windows 系統就提供一個可點選的字元對映表。又或者在 Microsoft Word 下,按下 Alt 鍵不放,輸入 0 和某個字元的 Unicode 編碼(十進位),再鬆開 Alt 鍵即可得到該字元,如Alt + 033865會得到 Unicode 字元。另外按Alt + X組合鍵,MS Word 也會將游標前面的字元同其十六進位的四位 Unicode 編碼進行互相轉換。


注釋[編輯]

  1. ^ The number of characters listed for each version of Unicode is the total number of graphic, format and control characters (i.e., excluding private-use characters, noncharacters and surrogate code points).

參考文獻[編輯]

  1. ^ The Unicode Standard 第五版. Addison-Wesley Professional. ISBN 0321480910. 
  2. ^ 2.0 2.1 Unicode 12.0.0. Unicode Consortium. [2019-3-13]. 
  3. ^ Unicode
  4. ^ Unicode Data 1.0.0. [2010-03-16]. 
  5. ^ Unicode Data 1.0.1. [2010-03-16]. 
  6. ^ Unicode Data 1995. [2010-03-16]. 
  7. ^ Unicode Data-2.0.14. [2010-03-16]. 
  8. ^ Unicode Data-2.1.2. [2010-03-16]. 
  9. ^ Unicode Data-3.0.0. [2010-03-16]. 
  10. ^ Unicode Data-3.1.0. [2010-03-16]. 
  11. ^ Unicode Data-3.2.0. [2010-03-16]. 
  12. ^ Unicode Data-4.0.0. [2010-03-16]. 
  13. ^ Unicode Data. [2010-03-16]. 
  14. ^ Unicode Data 5.0.0. [2010-03-17]. 
  15. ^ Unicode Data 5.1.0. [2010-03-17]. 
  16. ^ Unicode Data 5.2.0. [2010-03-17]. 
  17. ^ Unicode Data 6.0.0. [2010-10-11]. 
  18. ^ Unicode Data 6.1.0. [2012-01-31]. 
  19. ^ Unicode Data 6.2.0. [2012-09-26]. 
  20. ^ Unicode Data 6.3.0. [2013-09-30]. 
  21. ^ Unicode Data 7.0.0. [2014-06-15]. 
  22. ^ Unicode 8.0.0. Unicode Consortium. [2015-06-17]. 
  23. ^ Unicode Data 8.0.0. [2015-06-17]. 
  24. ^ Unicode 9.0.0. Unicode Consortium. [2016-06-21]. 
  25. ^ Unicode Data 9.0.0. [2016-06-21]. 
  26. ^ Unicode 10.0.0. Unicode Consortium. [2017-06-20]. 
  27. ^ Unicode Data 10.0.0. [2017-06-20]. 
  28. ^ Unicode 11.0.0. Unicode Consortium. [2018-06-06]. 
  29. ^ Unicode Data 11.0.0. [2018-06-06]. 
  30. ^ Unicode Data 12.0.0. [2019-3-13]. 
  31. ^ Unicode Version 12.1 released in support of the Reiwa Era. blog.unicode.org. [2019-05-07]. 
  32. ^ The Unicode Standard, Version 6.2, 2012 Unicode, Inc. Chapter 2 General Structure 2.2 Unicode Design Principles

參見[編輯]

外部連結[編輯]