UTF-32 - 維基百科，自由的百科全書

此條目可參照英語維基百科相應條目來擴充。 (2020年7月28日)
若您熟悉來源語言和主題，請協助參考外語維基百科擴充條目。請勿直接提交機械翻譯，也不要翻譯不可靠、低品質內容。依版權協議，譯文需在編輯摘要註明來源，或於討論頁頂部標記{{Translated page}}標籤。

UTF-32是32位元Unicode轉換格式（Unicode Transformation Formats，或UTF）的縮寫。UTF-32是一種用於編碼Unicode的協定，該協定使用32位元位元對每個Unicode碼位進行編碼（但前導位元數必須為零，故僅能表示2³¹個Unicode碼位）。與其他可變長度的Unicode轉換格式（UTF）相比，UTF-32編碼長度是固定的，UTF-32中的每個32位元值代表一個Unicode碼位，並且與該碼位的數值完全一致。

UTF-32的主要優點是可以直接由Unicode碼位來索引。在編碼序列中尋找第N個編碼是一個常數時間操作。相比之下，其他可變長度編碼需要進行循序存取操作才能在編碼序列中找到第N個編碼。這使得在電腦程式設計中，編碼序列中的字元位置可以用一個整數來表示，整數加一即可得到下一個字元的位置，就和ASCII字串一樣簡單。

UTF-32的主要缺點是每個碼位使用四個位元組，空間浪費較多。在大多數文字中，非基本多文種平面的字元非常罕見，這使得UTF-32所需空間接近UTF-16的兩倍和UTF-8的四倍（具體取決於文字中ASCII字元的比例）。

儘管每一個碼位使用固定長度的位元組看似方便，但UTF-32並不如其它Unicode編碼使用廣泛。與UTF-8及UTF-16相比，UTF-32更容易遭到截斷。即使使用了"定寬"字型，在大多數情況下用UTF-32計算顯示字串的寬度也並不比其他編碼更加容易。主要原因是，存在著一個字元位置會有多於一種可能的碼點（結合字元）或一個碼點用多於一個字元位置（如CJK表意字元）。結合符號也意味著，文書編輯者不能將一個碼位視同一個編輯上的單位。

歷史[編輯]

原本ISO 10646標準定義了一個32位元的編碼形式，稱作UCS-4，通用字元集（UCS）的每一個字元由0到十六進制的7FFFFFFF的31位元數值表示（符號位未使用且零）。UCS-4足以用來表示所有的Unicode的字碼空間，其最大的碼位為十六進制的7FFFFFFF，所以其空間約20億個碼位。2003年11月，由於UTF-16編碼形式的限制，RFC 3629標準將Unicode限制為僅支援U+10FFFF以內的碼位（另外U+D800到U+DFFF範圍內也被保留使用）^[1]^[2]。雖然在之前的ISO標準（1998年的Unicode 2.1）中0xE00000到0xFFFFFF和0x60000000到0x7FFFFFFF這些區域被分配給「保留私人使用」，但這些區域也在後續版本中被刪除。在 ISO/IEC JTC 1/SC 2 WG2申明中規定UCS-4將來所有的字元分配將被限制在Unicode範圍內，所以UTF-32和UCS4能表示的字元是相同的。

註釋[編輯]

^ ISO/IEC 10646:2014 （頁面存檔備份，存於網際網路檔案館） Clause 9.4: "Because surrogate code points are not UCS scalar values, UTF-32 code units in the range 0000 D800-0000 DFFF are ill-formed". Clause 4.57: "[UCS codespace] consisting of the integers from 0 to 10 FFFF (hexadecimal)". Clause 4.58: "[UCS scalar value] 存档副本 (PDF). [2017-04-13]. （原始內容 (PDF)存檔於2015-01-04）. any UCS code point except high-surrogate and low-surrogate code points".
^ Mapping code points to Unicode encoding forms （頁面存檔備份，存於網際網路檔案館）, § 1: UTF-32

外部連結[編輯]

（英文）The Unicode Standard 4.1，第三章（頁面存檔備份，存於網際網路檔案館） - 在§3.10, D43-D4中正式定義 UTF-32
（英文）Unicode Standard Annex #19 （頁面存檔備份，存於網際網路檔案館） - Unicode 3.x 中正式定義的 UTF-32（2001 年三月；最後更新於 2002 年三月）
（英文）註冊新字集：UTF-32, UTF-32BE, UTF-32LE - IANA 字元集新增 UTF-32的宣言（2002 年四月）

Unicode

碼位

Unicode區段
通用字元集字元（英語：Universal Character Set characters）
Unicode字元特性（英語：Unicode character property）
Unicode字元平面對映
私人使用區

字元

通用字元集字元（英語：Universal Character Set characters）	端序記號 Combining Grapheme Joiner（英語：Combining Grapheme Joiner）左至右符號及右至左符號軟連字元（英語：Soft hyphen）變體連詞字元零寬連字零寬不連字零寬空格

列表	Unicode字元列表中日韓統一表意文字組合字元 Unicode中的重覆字元（英語：Duplicate characters in Unicode） Unicode數字 Unicode收錄的文字空格 Unicode符號全形和半形

處理

演算法	雙向文稿統一碼定序演算法 ISO 14651（英語：ISO 14651） Unicode等價性變體序列國際表意文字核心

統一碼編碼比較（英語：Comparison of Unicode encodings）	統一碼二進制有序壓縮 UTF-16的八位元相容編碼方案國際化域名編碼統一碼標準壓縮方案 UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC（英語：UTF-EBCDIC）

組合字元

使用

國際化域名
Unicode與電子郵件（英語：Unicode and email）
Unicode字型
Unicode與HTML（英語：Unicode and HTML）
- XML與HTML字元實體參照列表
- 字元值參照
Unicode輸入法
國際表意文字核心

相關標準

相關主題

Unicode收錄的文字

收錄文字	組合字元附加符號標點符號空格 Unicode數字

現代文字	Adlam alphabet（英語：Adlam alphabet）阿拉伯文字阿拉伯語附加符號（英語：Arabic diacritics）亞美尼亞字母峇里字母巴姆穆文字巴塔克文（英語：Batak alphabet）孟加拉文注音符號盲文布希德文緬文加拿大原住民音節文字 Chakma alphabet（英語：Chakma alphabet）占語字母 Cherokee syllabary（英語：Cherokee syllabary）中日韓統一表意文字西里爾字母德瑟雷特文（英語：Deseret alphabet）天城文吉茲字母喬治亞字母希臘字母古吉拉特文 Gunjala Gondi Lipi（英語：Gunjala Gondi Lipi）古木基文諺文哈乃斐羅興亞文字朝鮮漢字 Hanunó'o alphabet（英語：Hanunó'o alphabet）希伯來字母希伯來語附加符號（英語：Hebrew diacritics）平假名爪哇字母日本漢字卡納達文片假名 Kayah Li alphabet（英語：Kayah Li alphabet）高棉文寮文字 Unicode中的拉丁字母絨巴文 Limbu alphabet（英語：Limbu alphabet）老傈僳文布吉斯文（英語：Lontara alphabet）馬拉雅拉姆文 Gondi writing（英語：Gondi writing） Mende Kikakui script（英語：Mende Kikakui script） Medefaidrin（英語：Medefaidrin）柏格理苗文傳統蒙古文 Mro people（英語：Mro people）西非書面字母西雙版納傣文 Prachalit Nepal alphabet（英語：Prachalit Nepal alphabet）女書 Ol Chiki alphabet（英語：Ol Chiki alphabet）奧里亞文 Osage alphabet（英語：Osage alphabet）奧斯曼亞字母 Pahawh Hmong（英語：Pahawh Hmong） Pau Cin Hau（英語：Pau Cin Hau） Rejang alphabet（英語：Rejang alphabet） Samaritan alphabet（英語：Samaritan alphabet） Saurashtra alphabet（英語：Saurashtra alphabet）蕭伯納字母僧伽羅文索拉僧平字母 Sundanese alphabet（英語：Sundanese alphabet） Sylheti Nagari（英語：Sylheti Nagari）敘利亞字母 Tagbanwa alphabet（英語：Tagbanwa alphabet）德宏傣文老傣文傣黯語泰米爾文泰盧固文它拿字母泰文字藏文提非納文字底羅仆多文 Vai syllabary（英語：Vai syllabary） Warang Citi（英語：Warang Citi）彝文

古代文字	阿洪姆文安納托利亞象形文字（英語：Anatolian hieroglyphs）古北阿拉伯文（英語：Ancient North Arabian）阿維斯陀文（英語：Avestan alphabet） Bassa alphabet（英語：Bassa alphabet）梵文（英語：Bhaiksuki alphabet）婆羅米文卡里亞文（英語：Carian alphabets）高加索阿爾巴尼亞字母（英語：Caucasian Albanian alphabet）科普特字母楔形文字賽普勒斯音節文字多格拉語聖書體愛爾巴桑格拉哥里字母哥德字母古蘭塔文 Hatran alphabet（英語：Hatran alphabet）阿拉米字母巴列維文安息語凱提文佉盧文 Khojki（英語：Khojki） Khudabadi script（英語：Khudabadi script）線形文字A 線形文字B 呂西亞字母（英語：Lycian alphabet） Lydian alphabet（英語：Lydian alphabet） Mahajani（英語：Mahajani）望加錫文（英語：Makassarese language） Mandaic alphabet（英語：Mandaic alphabet）摩尼字母象雄語 Meithei script（英語：Meithei script）麥羅埃字母馬拉地文（英語：Modi alphabet）木爾坦文（英語：Multani alphabet）納巴泰字母歐甘字母古匈牙利字母古義大利字母古彼爾姆文古波斯楔形文字粟特字母突厥字母帕米瑞拉文字（英語：Palmyrene alphabet）八思巴字母腓尼基字母巴列維文字盧恩字母夏拉達文悉曇文字粟特字母南阿拉伯字母索永布字母貝貝因字母塔卡里文字（英語：Takri alphabet）西夏文烏加里特字母札那巴札爾方形字母

標記文字	杜普洛伊速記（英語：Duployan shorthand）薩頓手語譜寫

符號	Unicode中的宗教與政治符號（英語：Religious and political symbols in Unicode）貨幣符號 Unicode中的數學運算子與符號（英語：Mathematical operators and symbols in Unicode） Unicode中的音標符號哏圖標

閱論編字元編碼

早期電信	電報電碼（英語：Telegraph code）庫克與惠斯通（英語：Cooke and Wheatstone telegraph）摩斯非拉丁字母（英語：Morse code for non-Latin alphabets）日文（英語：Wabun code）中文西里爾字母（英語：Russian Morse code）韓文（英語：SKATS）博多與莫瑞 Fieldata（英語：Fieldata） ASCII ISO/IEC 646 BCDIC（英語：BCD (character encoding)）電傳文訊（英語：Teletex）與電傳視訊（英語：Videotex）／電視資訊 T.51/ISO/IEC 6937（英語：T.51/ISO/IEC 6937） ITU T.61（英語：ITU T.61） ITU T.101（英語：Videotex character set）世界系統電傳文訊（英語：World System Teletext）字元集（英語：Teletext character set）

ISO/IEC 8859	現行 -1（西歐語言） -2（中歐語言） -3（馬爾他文／世界文） -4（北歐語言） -5（西里爾字母） -6（阿拉伯文） -7（希臘文） -8（希伯來文） -9（土耳其文） -10（北日耳曼語支） -11（泰文） -13（波羅的語族） -14（凱爾特語族） -15（新西歐語言） -16（羅馬尼亞文）廢止 -12（梵文）提議 KOI-8西里爾字母（英語：ISO-IR-111）薩米文（英語：ISO-IR-197）改編威爾斯文（英語：ISO-IR-182）巴倫支西里爾字母（英語：ISO-IR-200）愛沙尼亞文（英語：Code page 922）烏克蘭西里爾字母（英語：Code page 1124）

書目	MARC-8（英語：MARC-8） ANSEL（英語：ANSEL）中文資訊交換碼 ISO 5426（英語：ISO 5426） ISO 5427（英語：ISO 5427） ISO 5428（英語：ISO 5428） ISO 6438 ISO 6862（英語：ISO 6862）

國家標準	ArmSCII BraSCII（英語：BraSCII）中文標準交換碼 DIN 66003（英語：DIN 66003） ELOT 927（英語：ELOT 927） GOST 10859（英語：GOST 10859） GB 2312 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212（英語：JIS X 0212） JIS X 0213（英語：JIS X 0213） KOI-7（英語：KOI-7） KPS 9566 KS X 1001 KS X 1002（英語：KS X 1002） LST 1564（英語：LST 1564） LST 1590-4（英語：LST 1590-4） PASCII Shift JIS SI 960（英語：SI 960） TIS-620（英語：Thai Industrial Standard 620-2533） TSCII VISCII（英語：VISCII） VSCII YUSCII（英語：YUSCII）

ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367（英語：ISO/IEC 10367） EUC ISO-IR-165

macOS頁碼	亞美尼亞文（英語：Mac OS Armenian）阿拉伯文巴倫支西里爾字母（英語：Mac OS Barents Cyrillic）凱爾特語族（英語：Mac OS Celtic）中歐語言克羅埃西亞文（英語：Mac OS Croatian encoding）西里爾字母（英語：Mac OS Cyrillic encoding）梵文波斯文（英語：MacFarsi encoding）字體X（英語：Macintosh Font X encoding）蓋爾文（英語：Mac OS Gaelic）喬治亞文（英語：Mac OS Georgian）希臘文（英語：MacGreek encoding）古吉拉特文（英語：Mac OS Gujarati）古木基文（英語：Mac OS Gurmukhi）希伯來文（英語：Mac OS Hebrew）冰島文（英語：Mac OS Icelandic encoding）因紐特文（英語：Mac OS Inuit）鍵盤（英語：Mac OS Keyboard encoding）拉丁文（英語：Macintosh Latin encoding）馬爾他文／世界文（英語：Mac OS Maltese/Esperanto encoding）歐甘字母（英語：Mac OS Ogham）羅曼語族羅馬尼亞文（英語：Mac OS Romanian encoding）薩米文（英語：Mac OS Sámi）土耳其文（英語：Mac OS Turkish encoding）土耳其西里爾字母（英語：Mac OS Turkic Cyrillic）烏克蘭文（英語：Mac OS Ukrainian encoding） VT100（英語：VT100 encoding）

DOS代碼頁	437 668（英語：Code page 668） 708（英語：Code page 708） 720（英語：Code page 720） 737（英語：Code page 737） 770（英語：Code page 770） 773（英語：Code page 773） 775（英語：Code page 775） 776（英語：Code page 776） 777（英語：Code page 777） 778（英語：Code page 778） 850（英語：Code page 850） 851（英語：Code page 851） 852（英語：Code page 852） 853（英語：Code page 853） 855（英語：Code page 855） 856（英語：Code page 856） 857（英語：Code page 857） 858（英語：Code page 858） 859（英語：Code page 859） 860（英語：Code page 860） 861（英語：Code page 861） 862（英語：Code page 862） 863（英語：Code page 863） 864（英語：Code page 864） 865（英語：Code page 865） 866（英語：Code page 866） 867（英語：Code page 867） 868（英語：Code page 868） 869（英語：Code page 869） 897（英語：Code page 897） 899（英語：Code page 899） 903（英語：Code page 903） 904（英語：Code page 904） 932（英語：Code page 932 (IBM)） 936（英語：Code page 936 (IBM)） 942（英語：Code page 942） 949（英語：Code page 949 (IBM)） 950 951（英語：Code page 951） 1040（英語：Code page 1040） 1042（英語：Code page 1042） 1043（英語：Code page 1043） 1046（英語：Code page 1046） 1098（英語：Code page 1098） 1115（英語：Code page 1115） 1116（英語：Code page 1116） 1117（英語：Code page 1117） 1118（英語：Code page 1118） 1127（英語：Code page 1127） 3846（英語：Code page 3846） ABICOMP（英語：ABICOMP character set） CS Indic（英語：CS Indic character set） CSX Indic（英語：CSX Indic character set） CSX+ Indic（英語：CSX+ Indic character set） CWI-2（英語：CWI-2）伊朗系統（英語：Iran System encoding）卡梅尼茨（英語：Kamenický encoding）馬索維亞（英語：Mazovia encoding） MIK（英語：MIK (character set)）

IBM AIX代碼頁	895（英語：Code page 895） 896（英語：Code page 896） 912（英語：Code page 912） 915（英語：Code page 915） 921（英語：Code page 921） 922（英語：Code page 922） 1006（英語：Code page 1006） 1008（英語：Code page 1008） 1009（英語：Code page 1009） 1010（英語：Code page 1010） 1012（英語：Code page 1012） 1013（英語：Code page 1013） 1014（英語：Code page 1014） 1015（英語：Code page 1015） 1016（英語：Code page 1016） 1017（英語：Code page 1017） 1018（英語：Code page 1018） 1019（英語：Code page 1019） 1124（英語：Code page 1124） 1133（英語：Code page 1133）

Microsoft Windows代碼頁（英語：Windows code page）	CER-GS（英語：CER-GS） 932（英語：Code page 932 (Microsoft Windows)） 936 GBK 950 1169（英語：Code page 1169） Extended Latin-8（英語：Extended Latin-8） 1250（英語：Windows-1250） 1251（英語：Windows-1251） 1252 1253（英語：Windows-1253） 1254（英語：Windows-1254） 1255（英語：Windows-1255） 1256（英語：Windows-1256） 1257（英語：Windows-1257） 1258（英語：Windows-1258） 1270（英語：Windows-1270）西里爾字母+芬蘭文（英語：Windows Cyrillic + Finnish）西里爾字母+法文（英語：Windows Cyrillic + French）西里爾字母+德文（英語：Windows Cyrillic + German）希臘語變音符號（英語：Windows Polytonic Greek）

EBCDIC代碼頁	37（英語：Code page 37） EBCDIC中的日文（英語：Japanese language in EBCDIC） DKOI（英語：DKOI）

DEC終端機（VTx（英語：VT220））	MCS（英語：Multinational Character Set） NRCS（英語：National Replacement Character Set）加拿大法文（英語：Code page 1020）瑞士文（英語：Code page 1021）西班牙文（英語：Code page 1023）英國英文（英語：Code page 1101）荷蘭文（英語：Code page 1102）芬蘭文（英語：Code page 1103）法文（英語：Code page 1104）挪威文／丹麥文（英語：Code page 1105）瑞典文（英語：Code page 1106）挪威文／丹麥文（替代）（英語：Code page 1107） 8位元希臘文（英語：Code page 1287） 8位元土耳其文（英語：Code page 1288） SI 960（英語：SI 960）希伯來文（英語：DEC Hebrew）特殊圖形（英語：DEC Special Graphics）技術（英語：DEC Technical Character Set）

特定平臺	1057（英語：Code page 1057） Acorn（英語：RISC OS character set） Adobe標準（英語：PostScript Standard Encoding） Adobe Latin 1（英語：PostScript Latin 1 Encoding） Amstrad CPC（英語：Amstrad CPC character set） Apple II（英語：Apple II character set）雅達利資訊交換標準碼（英語：ATASCII）雅達利ST（英語：Atari ST character set） BICS（英語：Bitstream International Character Set）卡西歐計算機（英語：Casio calculator character sets） CDC（英語：CDC display code） Compucolor II（英語：Compucolor II character set） CP/M+（英語：Amstrad CP/M Plus character set） DEC RADIX 50（英語：DEC RADIX 50） DEC MCS（英語：Multinational Character Set）/NRCS（英語：National Replacement Character Set） DG國際（英語：DG International） Fieldata（英語：Fieldata） GEM（英語：GEM character set） GSM 03.38（英語：GSM 03.38） HP Roman（英語：HP Roman） HP FOCAL（英語：FOCAL character set） HP RPL（英語：RPL character set） SQUOZE（英語：SQUOZE） LICS（英語：Lotus International Character Set） LMBCS（英語：Lotus Multi-Byte Character Set） MSX（英語：MSX character set） NEC APC（英語：NEC APC character set） NeXT（英語：NeXT character set） PETSCII（英語：PETSCII） SEGA SC-3000（英語：Sega SC-3000 character set）夏普計算機（英語：Sharp pocket computer character sets）夏普MZ（英語：Sharp MZ character set）辛克萊QL（英語：Sinclair QL character set）符號電傳文訊（英語：Teletext character set）德州儀器計算機（英語：TI calculator character sets） TRS-80（英語：TRS-80 character set）文圖拉國際（英語：Ventura International） WISCII（英語：Wang International Standard Code for Information Interchange） XCCS（英語：Xerox Character Code Standard） ZX80（英語：ZX80 character set） ZX81（英語：ZX81 character set） ZX Spectrum（英語：ZX Spectrum character set）

Unicode及通用字元集	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC（英語：UTF-EBCDIC） GB 18030 BOCU-1 CESU-8 SCSU TACE16（英語：Tamil All Character Encoding） Unicode編碼比較（英語：Comparison of Unicode encodings）

TeX排版系統	科克（英語：Cork encoding） LY1（英語：LY1 encoding） OML（英語：OML encoding） OMS（英語：OMS encoding） OT1（英語：OT1 encoding）

其他代碼頁	ABICOMP（英語：ABICOMP character set） ASMO 449（英語：ASMO 449）大五碼 APL符號數位編碼（英語：Digital encoding of APL symbols） ISO-IR-68（英語：ISO-IR-68） ARIB STD-B24 HZ（英語：HZ (character encoding)） IEC-P27-1（英語：IEC-P27-1） INIS 7位元（英語：INIS character set） INIS-8（英語：8位元） ISO-IR-169（英語：ISO-IR-169） ISO 2033（英語：ISO 2033） KOI -R -RU（英語：KOI8-RU） -U 今昔文字鏡 SEASCII（英語：Stanford Extended ASCII） Stanford/ITS（英語：Stanford/ITS character set） TRON（英語：TRON (encoding)）統合韓文代碼（英語：Unified Hangul Code）

控制字元	摩斯電碼專用代碼（英語：Prosigns for Morse code） C0與C1控制字元 ISO/IEC 6429 JIS X 0211（英語：JIS X 0211） Unicode控制字元空白字元

相關條目	CCSID（英語：CCSID） HTML字元編碼字元集探測中日韓統一表意文字硬體代碼頁（英語：Hardware code page）磁性墨水字元識別碼（英語：Magnetic ink character recognition）亂碼中文亂碼可變寬度編碼

字元集