UTF-32 - 维基百科，自由的百科全书

此條目可参照英語維基百科相應條目来扩充。 (2020年7月28日)
若您熟悉来源语言和主题，请协助参考外语维基百科扩充条目。请勿直接提交机械翻译，也不要翻译不可靠、低品质内容。依版权协议，译文需在编辑摘要注明来源，或于讨论页顶部标记{{Translated page}}标签。

UTF-32是32位Unicode转换格式（Unicode Transformation Formats，或UTF）的缩写。UTF-32是一种用于编码Unicode的协定，该协定使用32位比特对每个Unicode码位进行编码（但前导比特数必须为零，故仅能表示2³¹个Unicode码位）。与其他可变长度的Unicode转换格式（UTF）相比，UTF-32编码长度是固定的，UTF-32中的每个32位值代表一个Unicode码位，并且与该码位的数值完全一致。

UTF-32的主要优点是可以直接由Unicode码位来索引。在编码序列中查找第N个编码是一个常数时间操作。相比之下，其他可变长度编码需要进行循序存取操作才能在编码序列中找到第N个编码。这使得在计算机程序设计中，编码序列中的字符位置可以用一个整数来表示，整数加一即可得到下一个字符的位置，就和ASCII字符串一样简单。

UTF-32的主要缺点是每个码位使用四个字节，空间浪费较多。在大多数文本中，非基本多文種平面的字符非常罕见，这使得UTF-32所需空间接近UTF-16的两倍和UTF-8的四倍（具体取决于文本中ASCII字符的比例）。

尽管每一個碼位使用固定長度的位元組看似方便，但UTF-32並不如其它Unicode編碼使用廣泛。與UTF-8及UTF-16相比，UTF-32更容易遭到截斷。即使使用了"定寬"字型，在大多数情况下用UTF-32計算顯示字串的寬度也并不比其他编码更加容易。主要原因是，存在著一個字符位置會有多於一種可能的碼點（結合字符）或一個碼點用多於一個字符位置（如CJK表意字符）。結合符號也意味著，文書編輯者不能將一個码位視同一個編輯上的單位。

歷史

[编辑]

原本ISO 10646標準定義了一個32位元的編碼形式，稱作UCS-4，通用字符集（UCS）的每一個字符由0到十六進制的7FFFFFFF的31位数值表示（符号位未使用且零）。UCS-4足以用來表示所有的Unicode的字碼空間，其最大的碼位為十六進制的7FFFFFFF，所以其空間約20亿個碼位。2003年11月，由于UTF-16编码形式的限制，RFC 3629标准将Unicode限制为仅支持U+10FFFF以内的码位（另外U+D800到U+DFFF范围内也被保留使用）^[1]^[2]。虽然在之前的ISO标准（1998年的Unicode 2.1）中0xE00000到0xFFFFFF和0x60000000到0x7FFFFFFF这些区域被分配给“保留私人使用”，但这些区域也在后续版本中被删除。在 ISO/IEC JTC 1/SC 2 WG2申明中规定UCS-4将来所有的字符分配将被限制在Unicode范围内，所以UTF-32和UCS4能表示的字符是相同的。

註釋

[编辑]

^ ISO/IEC 10646:2014 （页面存档备份，存于互联网档案馆） Clause 9.4: "Because surrogate code points are not UCS scalar values, UTF-32 code units in the range 0000 D800-0000 DFFF are ill-formed". Clause 4.57: "[UCS codespace] consisting of the integers from 0 to 10 FFFF (hexadecimal)". Clause 4.58: "[UCS scalar value] 存档副本 (PDF). [2017-04-13]. （原始内容 (PDF)存档于2015-01-04）. any UCS code point except high-surrogate and low-surrogate code points".
^ Mapping code points to Unicode encoding forms （页面存档备份，存于互联网档案馆）, § 1: UTF-32

外部連結

[编辑]

（英文）The Unicode Standard 4.1，第三章（页面存档备份，存于互联网档案馆） - 在§3.10, D43-D4中正式定義 UTF-32
（英文）Unicode Standard Annex #19 （页面存档备份，存于互联网档案馆） - Unicode 3.x 中正式定義的 UTF-32（2001 年三月；最後更新於 2002 年三月）
（英文）註冊新字集：UTF-32, UTF-32BE, UTF-32LE - IANA 字符集新增 UTF-32的宣言（2002 年四月）

Unicode

码位

Unicode區段
通用字元集字元（英语：Universal Character Set characters）
Unicode字元特性（英语：Unicode character property）
Unicode字符平面映射
私人使用区

字符

通用字元集字元（英语：Universal Character Set characters）	端序記號 Combining Grapheme Joiner（英语：Combining Grapheme Joiner）左至右符號及右至左符號軟連字符（英语：Soft hyphen）变体連詞字符零宽连字零宽不连字零宽空格
列表	Unicode字符列表中日韓統一表意文字組合字符 Unicode中的重覆字符（英语：Duplicate characters in Unicode） Unicode數字 Unicode收录的文字空格 Unicode符號全形和半形

處理

演算法	雙向文稿統一碼定序演算法 ISO 14651（英语：ISO 14651） Unicode等價性变体序列國際表意文字核心
統一碼編碼比較（英语：Comparison of Unicode encodings）	統一碼二進制有序壓縮 UTF-16的八位元相容編碼方案國際化域名編碼統一碼標準壓縮方案 UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC（英语：UTF-EBCDIC）

組合字符

使用

国际化域名
Unicode與電子郵件（英语：Unicode and email）
Unicode字型
Unicode與HTML（英语：Unicode and HTML）
- XML与HTML字符实体引用列表
- 字符值引用
Unicode输入法
國際表意文字核心

相關標準

相關主題

Unicode收录的文字
收录文字	組合字符附加符号标点符号空格 Unicode數字
現代文字	Adlam alphabet（英语：Adlam alphabet）阿拉伯文字阿拉伯語附加符號（英语：Arabic diacritics）亞美尼亞字母巴厘字母巴姆穆文字巴塔克文孟加拉文注音符號盲文布希德文缅文加拿大原住民音節文字 Chakma alphabet（英语：Chakma alphabet）占語字母 Cherokee syllabary（英语：Cherokee syllabary）中日韓統一表意文字西里尔字母德瑟雷特文（英语：Deseret alphabet）天城文吉茲字母格鲁吉亚字母希腊字母古吉拉特文 Gunjala Gondi Lipi（英语：Gunjala Gondi Lipi）古木基文諺文哈乃斐羅興亞文字朝鮮漢字 Hanunó'o alphabet（英语：Hanunó'o alphabet）希伯来字母希伯來語附加符號（英语：Hebrew diacritics）平假名爪哇字母日本汉字卡納達文片假名 Kayah Li alphabet（英语：Kayah Li alphabet）高棉文寮文字 Unicode中的拉丁字母绒巴文 Limbu alphabet（英语：Limbu alphabet）老傈僳文布吉斯文（英语：Lontara alphabet）馬拉雅拉姆文 Gondi writing（英语：Gondi writing） Mende Kikakui script（英语：Mende Kikakui script） Medefaidrin（英语：Medefaidrin）柏格理苗文传统蒙古文 Mro people（英语：Mro people）西非書面字母西双版纳傣文 Prachalit Nepal alphabet（英语：Prachalit Nepal alphabet）女书 Ol Chiki alphabet（英语：Ol Chiki alphabet）奧里亞文 Osage alphabet（英语：Osage alphabet）奧斯曼亞字母 Pahawh Hmong（英语：Pahawh Hmong） Pau Cin Hau（英语：Pau Cin Hau） Rejang alphabet（英语：Rejang alphabet） Samaritan alphabet（英语：Samaritan alphabet） Saurashtra alphabet（英语：Saurashtra alphabet）蕭伯納字母僧伽羅文索拉僧平字母 Sundanese alphabet（英语：Sundanese alphabet） Sylheti Nagari（英语：Sylheti Nagari）敘利亞字母 Tagbanwa alphabet（英语：Tagbanwa alphabet）德宏傣文老傣仂文傣黯語泰米爾字母泰卢固文它拿字母泰文字藏文提非納文字底罗仆多文 Vai syllabary（英语：Vai syllabary） Warang Citi（英语：Warang Citi）彝文
古代文字	阿洪姆文安納托利亞象形文字（英语：Anatolian hieroglyphs）古北阿拉伯文（英语：Ancient North Arabian）阿維斯陀文（英语：Avestan alphabet） Bassa alphabet（英语：Bassa alphabet）梵文（英语：Bhaiksuki alphabet）婆罗米文卡里亞文（英语：Carian alphabets）高加索阿爾巴尼亞字母（英语：Caucasian Albanian alphabet）科普特字母楔形文字塞浦路斯音節文字多格拉語圣书体爱尔巴桑格拉哥里字母哥德字母古兰塔文 Hatran alphabet（英语：Hatran alphabet）阿拉米字母巴列維文安息语凱提文佉卢文 Khojki（英语：Khojki） Khudabadi script（英语：Khudabadi script）线形文字A 线形文字B 呂西亞字母（英语：Lycian alphabet） Lydian alphabet（英语：Lydian alphabet） Mahajani（英语：Mahajani）望加錫文（英语：Makassarese language） Mandaic alphabet（英语：Mandaic alphabet）摩尼字母象雄语 Meithei script（英语：Meithei script）麥羅埃字母馬拉地文（英语：Modi alphabet）木爾坦文（英语：Multani alphabet）納巴泰字母歐甘字母古匈牙利字母古意大利字母古彼爾姆文古波斯楔形文字粟特字母突厥字母帕米瑞拉文字（英语：Palmyrene alphabet）八思巴字母腓尼基字母巴列維文字盧恩字母夏拉達文悉曇文字粟特字母南阿拉伯字母索永布字母贝贝因字母塔卡里文字（英语：Takri alphabet）西夏文乌加里特字母札那巴札尔方形字母
標記文字	杜普洛伊速記（英语：Duployan shorthand）薩頓手語譜寫
符號	Unicode中的宗教與政治符號（英语：Religious and political symbols in Unicode）货币符号 Unicode中的數學運算子與符號（英语：Mathematical operators and symbols in Unicode） Unicode中的音标符号表情图标

查论编字符编码
早期電信	電報電碼（英语：Telegraph code）庫克與惠斯通（英语：Cooke and Wheatstone telegraph）摩斯非拉丁字母（英语：Morse code for non-Latin alphabets）日文（英语：Wabun code）中文西里爾字母（英语：Russian Morse code）韓文（英语：SKATS）博多與莫瑞 Fieldata（英语：Fieldata） ASCII ISO/IEC 646 BCDIC（英语：BCD (character encoding)）電傳文訊（英语：Teletex）與電傳視訊（英语：Videotex）／電視資訊 T.51/ISO/IEC 6937（英语：T.51/ISO/IEC 6937） ITU T.61（英语：ITU T.61） ITU T.101（英语：Videotex character set）世界系統電傳文訊（英语：World System Teletext）字元集（英语：Teletext character set）
ISO/IEC 8859	現行 -1（西歐語言） -2（中歐語言） -3（馬爾他文／世界文） -4（北歐語言） -5（西里爾字母） -6（阿拉伯文） -7（希臘文） -8（希伯來文） -9（土耳其文） -10（北日耳曼語支） -11（泰文） -13（波羅的語族） -14（凱爾特語族） -15（新西歐語言） -16（羅馬尼亞文）廢止 -12（梵文）提議 KOI-8西里爾字母（英语：ISO-IR-111）薩米文（英语：ISO-IR-197）改編威爾斯文（英语：ISO-IR-182）巴倫支西里爾字母（英语：ISO-IR-200）愛沙尼亞文（英语：Code page 922）烏克蘭西里爾字母（英语：Code page 1124）
書目	MARC-8（英语：MARC-8） ANSEL（英语：ANSEL）中文資訊交換碼 ISO 5426（英语：ISO 5426） ISO 5427（英语：ISO 5427） ISO 5428（英语：ISO 5428） ISO 6438 ISO 6862（英语：ISO 6862）
國家標準	ArmSCII BraSCII（英语：BraSCII）中文標準交換碼 DIN 66003（英语：DIN 66003） ELOT 927（英语：ELOT 927） GOST 10859（英语：GOST 10859） GB 2312 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212（英语：JIS X 0212） JIS X 0213（英语：JIS X 0213） KOI-7（英语：KOI-7） KPS 9566 KS X 1001 KS X 1002（英语：KS X 1002） LST 1564（英语：LST 1564） LST 1590-4（英语：LST 1590-4） PASCII Shift JIS SI 960（英语：SI 960） TIS-620（英语：Thai Industrial Standard 620-2533） TSCII VISCII（英语：VISCII） VSCII YUSCII（英语：YUSCII）
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367（英语：ISO/IEC 10367） EUC ISO-IR-165
macOS代码页	亞美尼亞文（英语：Mac OS Armenian）阿拉伯文巴倫支西里爾字母（英语：Mac OS Barents Cyrillic）凱爾特語族（英语：Mac OS Celtic）中歐語言克羅埃西亞文（英语：Mac OS Croatian encoding）西里爾字母（英语：Mac OS Cyrillic encoding）梵文波斯文（英语：MacFarsi encoding）字體X（英语：Macintosh Font X encoding）蓋爾文（英语：Mac OS Gaelic）喬治亞文（英语：Mac OS Georgian）希臘文（英语：MacGreek encoding）古吉拉特文（英语：Mac OS Gujarati）古木基文（英语：Mac OS Gurmukhi）希伯來文（英语：Mac OS Hebrew）冰島文（英语：Mac OS Icelandic encoding）因紐特文（英语：Mac OS Inuit）鍵盤（英语：Mac OS Keyboard encoding）拉丁文（英语：Macintosh Latin encoding）馬爾他文／世界文（英语：Mac OS Maltese/Esperanto encoding）歐甘字母（英语：Mac OS Ogham）羅曼語族羅馬尼亞文（英语：Mac OS Romanian encoding）薩米文（英语：Mac OS Sámi）土耳其文（英语：Mac OS Turkish encoding）土耳其西里爾字母（英语：Mac OS Turkic Cyrillic）烏克蘭文（英语：Mac OS Ukrainian encoding） VT100（英语：VT100 encoding）
DOS代碼頁	437 668（英语：Code page 668） 708（英语：Code page 708） 720（英语：Code page 720） 737（英语：Code page 737） 770（英语：Code page 770） 773（英语：Code page 773） 775（英语：Code page 775） 776（英语：Code page 776） 777（英语：Code page 777） 778（英语：Code page 778） 850（英语：Code page 850） 851（英语：Code page 851） 852（英语：Code page 852） 853（英语：Code page 853） 855（英语：Code page 855） 856（英语：Code page 856） 857（英语：Code page 857） 858（英语：Code page 858） 859（英语：Code page 859） 860（英语：Code page 860） 861（英语：Code page 861） 862（英语：Code page 862） 863（英语：Code page 863） 864（英语：Code page 864） 865（英语：Code page 865） 866（英语：Code page 866） 867（英语：Code page 867） 868（英语：Code page 868） 869（英语：Code page 869） 897（英语：Code page 897） 899（英语：Code page 899） 903（英语：Code page 903） 904（英语：Code page 904） 932（英语：Code page 932 (IBM)） 936（英语：Code page 936 (IBM)） 942（英语：Code page 942） 949（英语：Code page 949 (IBM)） 950 951（英语：Code page 951） 1040（英语：Code page 1040） 1042（英语：Code page 1042） 1043（英语：Code page 1043） 1046（英语：Code page 1046） 1098（英语：Code page 1098） 1115（英语：Code page 1115） 1116（英语：Code page 1116） 1117（英语：Code page 1117） 1118（英语：Code page 1118） 1127（英语：Code page 1127） 3846（英语：Code page 3846） ABICOMP（英语：ABICOMP character set） CS Indic（英语：CS Indic character set） CSX Indic（英语：CSX Indic character set） CSX+ Indic（英语：CSX+ Indic character set） CWI-2（英语：CWI-2）伊朗系統（英语：Iran System encoding）卡梅尼茨（英语：Kamenický encoding）馬索維亞（英语：Mazovia encoding） MIK（英语：MIK (character set)）
IBM AIX代碼頁	895（英语：Code page 895） 896（英语：Code page 896） 912（英语：Code page 912） 915（英语：Code page 915） 921（英语：Code page 921） 922（英语：Code page 922） 1006（英语：Code page 1006） 1008（英语：Code page 1008） 1009（英语：Code page 1009） 1010（英语：Code page 1010） 1012（英语：Code page 1012） 1013（英语：Code page 1013） 1014（英语：Code page 1014） 1015（英语：Code page 1015） 1016（英语：Code page 1016） 1017（英语：Code page 1017） 1018（英语：Code page 1018） 1019（英语：Code page 1019） 1124（英语：Code page 1124） 1133（英语：Code page 1133）
Microsoft Windows代碼頁（英语：Windows code page）	CER-GS（英语：CER-GS） 932（英语：Code page 932 (Microsoft Windows)） 936 GBK 950 1169（英语：Code page 1169） Extended Latin-8（英语：Extended Latin-8） 1250（英语：Windows-1250） 1251（英语：Windows-1251） 1252 1253（英语：Windows-1253） 1254（英语：Windows-1254） 1255（英语：Windows-1255） 1256（英语：Windows-1256） 1257（英语：Windows-1257） 1258（英语：Windows-1258） 1270（英语：Windows-1270）西里爾字母+芬蘭文（英语：Windows Cyrillic + Finnish）西里爾字母+法文（英语：Windows Cyrillic + French）西里爾字母+德文（英语：Windows Cyrillic + German）希臘語變音符號（英语：Windows Polytonic Greek）
EBCDIC代碼頁	37（英语：Code page 37） EBCDIC中的日文（英语：Japanese language in EBCDIC） DKOI（英语：DKOI）
DEC終端機（VTx（英语：VT220））	MCS（英语：Multinational Character Set） NRCS（英语：National Replacement Character Set）加拿大法文（英语：Code page 1020）瑞士文（英语：Code page 1021）西班牙文（英语：Code page 1023）英國英文（英语：Code page 1101）荷蘭文（英语：Code page 1102）芬蘭文（英语：Code page 1103）法文（英语：Code page 1104）挪威文／丹麥文（英语：Code page 1105）瑞典文（英语：Code page 1106）挪威文／丹麥文（替代）（英语：Code page 1107） 8位元希臘文（英语：Code page 1287） 8位元土耳其文（英语：Code page 1288） SI 960（英语：SI 960）希伯來文（英语：DEC Hebrew）特殊圖形（英语：DEC Special Graphics）技術（英语：DEC Technical Character Set）
特定平臺	1057（英语：Code page 1057） Acorn（英语：RISC OS character set） Adobe標準（英语：PostScript Standard Encoding） Adobe Latin 1（英语：PostScript Latin 1 Encoding） Amstrad CPC（英语：Amstrad CPC character set） Apple II（英语：Apple II character set）雅達利資訊交換標準碼（英语：ATASCII）雅達利ST（英语：Atari ST character set） BICS（英语：Bitstream International Character Set）卡西歐計算機（英语：Casio calculator character sets） CDC（英语：CDC display code） Compucolor II（英语：Compucolor II character set） CP/M+（英语：Amstrad CP/M Plus character set） DEC RADIX 50（英语：DEC RADIX 50） DEC MCS（英语：Multinational Character Set）/NRCS（英语：National Replacement Character Set） DG國際（英语：DG International） Fieldata（英语：Fieldata） GEM（英语：GEM character set） GSM 03.38（英语：GSM 03.38） HP Roman（英语：HP Roman） HP FOCAL（英语：FOCAL character set） HP RPL（英语：RPL character set） SQUOZE（英语：SQUOZE） LICS（英语：Lotus International Character Set） LMBCS（英语：Lotus Multi-Byte Character Set） MSX（英语：MSX character set） NEC APC（英语：NEC APC character set） NeXT（英语：NeXT character set） PETSCII（英语：PETSCII） SEGA SC-3000（英语：Sega SC-3000 character set）夏普計算機（英语：Sharp pocket computer character sets）夏普MZ（英语：Sharp MZ character set）辛克萊QL（英语：Sinclair QL character set）符號電傳文訊（英语：Teletext character set）德州儀器計算機（英语：TI calculator character sets） TRS-80（英语：TRS-80 character set）文圖拉國際（英语：Ventura International） WISCII（英语：Wang International Standard Code for Information Interchange） XCCS（英语：Xerox Character Code Standard） ZX80（英语：ZX80 character set） ZX81（英语：ZX81 character set） ZX Spectrum（英语：ZX Spectrum character set）
Unicode及通用字符集	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC（英语：UTF-EBCDIC） GB 18030 BOCU-1 CESU-8 SCSU TACE16（英语：Tamil All Character Encoding） Unicode編碼比較（英语：Comparison of Unicode encodings）
TeX排版系統	科克（英语：Cork encoding） LY1（英语：LY1 encoding） OML（英语：OML encoding） OMS（英语：OMS encoding） OT1（英语：OT1 encoding）
其他代碼頁	ABICOMP（英语：ABICOMP character set） ASMO 449（英语：ASMO 449）大五碼 APL符號數位編碼（英语：Digital encoding of APL symbols） ISO-IR-68（英语：ISO-IR-68） ARIB STD-B24 HZ（英语：HZ (character encoding)） IEC-P27-1（英语：IEC-P27-1） INIS 7位元（英语：INIS character set） INIS-8（英语：8位元） ISO-IR-169（英语：ISO-IR-169） ISO 2033（英语：ISO 2033） KOI -R -RU（英语：KOI8-RU） -U 今昔文字鏡 SEASCII（英语：Stanford Extended ASCII） Stanford/ITS（英语：Stanford/ITS character set） TRON（英语：TRON (encoding)）統合韓文代碼（英语：Unified Hangul Code）
控制字符	摩斯電碼專用代碼（英语：Prosigns for Morse code） C0与C1控制字符 ISO/IEC 6429 JIS X 0211（英语：JIS X 0211） Unicode控制字符空白字元
相關條目	CCSID（英语：CCSID） HTML字符编码字符集探测中日韓統一表意文字硬體代碼頁（英语：Hardware code page）磁性墨水字元識別碼（英语：Magnetic ink character recognition）亂碼中文乱码可变宽度编码
字元集