UTF-32 - 维基百科，自由的百科全书

此条目可参照英语维基百科相应条目来扩充。 (2020年7月28日)
若您熟悉来源语言和主题，请协助参考外语维基百科扩充条目。请勿直接提交机械翻译，也不要翻译不可靠、低品质内容。依版权协议，译文需在编辑摘要注明来源，或于讨论页顶部标记{{Translated page}}标签。

UTF-32是32位Unicode转换格式（Unicode Transformation Formats，或UTF）的缩写。UTF-32是一种用于编码Unicode的协定，该协定使用32位比特对每个Unicode码位进行编码（但前导比特数必须为零，故仅能表示2³¹个Unicode码位）。与其他可变长度的Unicode转换格式（UTF）相比，UTF-32编码长度是固定的，UTF-32中的每个32位值代表一个Unicode码位，并且与该码位的数值完全一致。

UTF-32的主要优点是可以直接由Unicode码位来索引。在编码序列中查找第N个编码是一个常数时间操作。相比之下，其他可变长度编码需要进行循序访问操作才能在编码序列中找到第N个编码。这使得在计算机程序设计中，编码序列中的字符位置可以用一个整数来表示，整数加一即可得到下一个字符的位置，就和ASCII字符串一样简单。

UTF-32的主要缺点是每个码位使用四个字节，空间浪费较多。在大多数文本中，非基本多文种平面的字符非常罕见，这使得UTF-32所需空间接近UTF-16的两倍和UTF-8的四倍（具体取决于文本中ASCII字符的比例）。

尽管每一个码位使用固定长度的字节看似方便，但UTF-32并不如其它Unicode编码使用广泛。与UTF-8及UTF-16相比，UTF-32更容易遭到截断。即使使用了"定宽"字体，在大多数情况下用UTF-32计算显示字符串的宽度也并不比其他编码更加容易。主要原因是，存在着一个字符位置会有多于一种可能的码点（结合字符）或一个码点用多于一个字符位置（如CJK表意字符）。结合符号也意味着，文书编辑者不能将一个码位视同一个编辑上的单位。

历史

[编辑]

原本ISO 10646标准定义了一个32位的编码形式，称作UCS-4，通用字符集（UCS）的每一个字符由0到十六进制的7FFFFFFF的31位数值表示（符号位未使用且零）。UCS-4足以用来表示所有的Unicode的字码空间，其最大的码位为十六进制的7FFFFFFF，所以其空间约20亿个码位。2003年11月，由于UTF-16编码形式的限制，RFC 3629标准将Unicode限制为仅支持U+10FFFF以内的码位（另外U+D800到U+DFFF范围内也被保留使用）^[1]^[2]。虽然在之前的ISO标准（1998年的Unicode 2.1）中0xE00000到0xFFFFFF和0x60000000到0x7FFFFFFF这些区域被分配给“保留私人使用”，但这些区域也在后续版本中被删除。在 ISO/IEC JTC 1/SC 2 WG2申明中规定UCS-4将来所有的字符分配将被限制在Unicode范围内，所以UTF-32和UCS4能表示的字符是相同的。

注释

[编辑]

^ ISO/IEC 10646:2014 （页面存档备份，存于互联网档案馆） Clause 9.4: "Because surrogate code points are not UCS scalar values, UTF-32 code units in the range 0000 D800-0000 DFFF are ill-formed". Clause 4.57: "[UCS codespace] consisting of the integers from 0 to 10 FFFF (hexadecimal)". Clause 4.58: "[UCS scalar value] 存档副本 (PDF). [2017-04-13]. （原始内容 (PDF)存档于2015-01-04）. any UCS code point except high-surrogate and low-surrogate code points".
^ Mapping code points to Unicode encoding forms （页面存档备份，存于互联网档案馆）, § 1: UTF-32

外部链接

[编辑]

（英文）The Unicode Standard 4.1，第三章（页面存档备份，存于互联网档案馆） - 在§3.10, D43-D4中正式定义 UTF-32
（英文）Unicode Standard Annex #19 （页面存档备份，存于互联网档案馆） - Unicode 3.x 中正式定义的 UTF-32（2001 年三月；最后更新于 2002 年三月）
（英文）注册新字集：UTF-32, UTF-32BE, UTF-32LE - IANA 字符集新增 UTF-32的宣言（2002 年四月）

Unicode

码位

Unicode区段
通用字符集字符（英语：Universal Character Set characters）
Unicode字符特性（英语：Unicode character property）
Unicode字符平面映射
私人使用区

字符

通用字符集字符（英语：Universal Character Set characters）	端序记号 Combining Grapheme Joiner（英语：Combining Grapheme Joiner）左至右符号及右至左符号软连字符（英语：Soft hyphen）变体连词字符零宽连字零宽不连字零宽空格
列表	Unicode字符列表中日韩统一表意文字组合字符 Unicode中的重复字符（英语：Duplicate characters in Unicode） Unicode数字 Unicode收录的文字空格 Unicode符号全角和半角

处理

算法	双向文稿统一码测序算法 ISO 14651（英语：ISO 14651） Unicode等价性变体序列国际表意文字核心
统一码编码比较（英语：Comparison of Unicode encodings）	统一码二进制有序压缩 UTF-16的八比特兼容编码方案国际化域名编码统一码标准压缩方案 UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC（英语：UTF-EBCDIC）

组合字符

使用

国际化域名
Unicode与电子邮件（英语：Unicode and email）
Unicode字体
Unicode与HTML（英语：Unicode and HTML）
- XML与HTML字符实体引用列表
- 字符值引用
Unicode输入法
国际表意文字核心

相关主题

Unicode收录的文字
收录文字	组合字符附加符号标点符号空格 Unicode数字
现代文字	Adlam alphabet（英语：Adlam alphabet）阿拉伯文字阿拉伯语附加符号（英语：Arabic diacritics）亚美尼亚字母巴厘字母巴姆穆文字巴塔克文孟加拉文注音符号盲文布希德文缅文加拿大原住民音节文字 Chakma alphabet（英语：Chakma alphabet）占语字母 Cherokee syllabary（英语：Cherokee syllabary）中日韩统一表意文字西里尔字母德瑟雷特文（英语：Deseret alphabet）天城文吉兹字母格鲁吉亚字母希腊字母古吉拉特文 Gunjala Gondi Lipi（英语：Gunjala Gondi Lipi）古木基文谚文哈乃斐罗兴亚文字朝鲜汉字 Hanunó'o alphabet（英语：Hanunó'o alphabet）希伯来字母希伯来语附加符号（英语：Hebrew diacritics）平假名爪哇字母日本汉字卡纳达文片假名 Kayah Li alphabet（英语：Kayah Li alphabet）高棉文寮文字 Unicode中的拉丁字母绒巴文 Limbu alphabet（英语：Limbu alphabet）老傈僳文布吉斯文（英语：Lontara alphabet）马拉雅拉姆文 Gondi writing（英语：Gondi writing） Mende Kikakui script（英语：Mende Kikakui script） Medefaidrin（英语：Medefaidrin）柏格理苗文传统蒙古文 Mro people（英语：Mro people）西非书面字母西双版纳傣文 Prachalit Nepal alphabet（英语：Prachalit Nepal alphabet）女书 Ol Chiki alphabet（英语：Ol Chiki alphabet）奥里亚文 Osage alphabet（英语：Osage alphabet）奥斯曼亚字母 Pahawh Hmong（英语：Pahawh Hmong） Pau Cin Hau（英语：Pau Cin Hau） Rejang alphabet（英语：Rejang alphabet） Samaritan alphabet（英语：Samaritan alphabet） Saurashtra alphabet（英语：Saurashtra alphabet）萧伯纳字母僧伽罗文索拉僧平字母 Sundanese alphabet（英语：Sundanese alphabet） Sylheti Nagari（英语：Sylheti Nagari）叙利亚字母 Tagbanwa alphabet（英语：Tagbanwa alphabet）德宏傣文老傣仂文傣黯语泰米尔文泰卢固文它拿字母泰文字藏文提非纳文字底罗仆多文 Vai syllabary（英语：Vai syllabary） Warang Citi（英语：Warang Citi）彝文
古代文字	阿洪姆文安纳托利亚象形文字（英语：Anatolian hieroglyphs）古北阿拉伯文（英语：Ancient North Arabian）阿维斯陀文（英语：Avestan alphabet） Bassa alphabet（英语：Bassa alphabet）梵文（英语：Bhaiksuki alphabet）婆罗米文卡里亚文（英语：Carian alphabets）高加索阿尔巴尼亚字母（英语：Caucasian Albanian alphabet）科普特字母楔形文字塞浦路斯音节文字多格拉语圣书体爱尔巴桑格拉哥里字母哥德字母古兰塔文 Hatran alphabet（英语：Hatran alphabet）阿拉米字母巴列维文安息语凯提文佉卢文 Khojki（英语：Khojki） Khudabadi script（英语：Khudabadi script）线形文字A 线形文字B 吕西亚字母（英语：Lycian alphabet） Lydian alphabet（英语：Lydian alphabet） Mahajani（英语：Mahajani）望加锡文（英语：Makassarese language） Mandaic alphabet（英语：Mandaic alphabet）摩尼字母象雄语 Meithei script（英语：Meithei script）麦罗埃字母马拉地文（英语：Modi alphabet）木尔坦文（英语：Multani alphabet）纳巴泰字母欧甘字母古匈牙利字母古意大利字母古彼尔姆文古波斯楔形文字粟特字母突厥字母帕米瑞拉文字（英语：Palmyrene alphabet）八思巴字母腓尼基字母巴列维文字卢恩字母夏拉达文悉昙文字粟特字母南阿拉伯字母索永布字母贝贝因字母塔卡里文字（英语：Takri alphabet）西夏文乌加里特字母札那巴札尔方形字母
标记文字	杜普洛伊速记（英语：Duployan shorthand）萨顿手语谱写
符号	Unicode中的宗教与政治符号（英语：Religious and political symbols in Unicode）货币符号 Unicode中的数学运算符与符号（英语：Mathematical operators and symbols in Unicode） Unicode中的音标符号表情包标

查论编字符编码
早期电信	电报电码（英语：Telegraph code）库克与惠斯通（英语：Cooke and Wheatstone telegraph）摩斯非拉丁字母（英语：Morse code for non-Latin alphabets）日文（英语：Wabun code）中文西里尔字母（英语：Russian Morse code）韩文（英语：SKATS）博多与莫瑞 Fieldata（英语：Fieldata） ASCII ISO/IEC 646 BCDIC（英语：BCD (character encoding)）电传文讯（英语：Teletex）与电传视频（英语：Videotex）／电视信息 T.51/ISO/IEC 6937（英语：T.51/ISO/IEC 6937） ITU T.61（英语：ITU T.61） ITU T.101（英语：Videotex character set）世界系统电传文讯（英语：World System Teletext）字符集（英语：Teletext character set）
ISO/IEC 8859	现行 -1（西欧语言） -2（中欧语言） -3（马耳他文／世界文） -4（北欧语言） -5（西里尔字母） -6（阿拉伯文） -7（希腊文） -8（希伯来文） -9（土耳其文） -10（北日耳曼语支） -11（泰文） -13（波罗的语族） -14（凯尔特语族） -15（新西欧语言） -16（罗马尼亚文）废止 -12（梵文）提议 KOI-8西里尔字母（英语：ISO-IR-111）萨米文（英语：ISO-IR-197）改编威尔士文（英语：ISO-IR-182）巴伦支西里尔字母（英语：ISO-IR-200）爱沙尼亚文（英语：Code page 922）乌克兰西里尔字母（英语：Code page 1124）
书目	MARC-8（英语：MARC-8） ANSEL（英语：ANSEL）中文信息交换码 ISO 5426（英语：ISO 5426） ISO 5427（英语：ISO 5427） ISO 5428（英语：ISO 5428） ISO 6438 ISO 6862（英语：ISO 6862）
国家标准	ArmSCII BraSCII（英语：BraSCII）中文标准交换码 DIN 66003（英语：DIN 66003） ELOT 927（英语：ELOT 927） GOST 10859（英语：GOST 10859） GB 2312 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212（英语：JIS X 0212） JIS X 0213（英语：JIS X 0213） KOI-7（英语：KOI-7） KPS 9566 KS X 1001 KS X 1002（英语：KS X 1002） LST 1564（英语：LST 1564） LST 1590-4（英语：LST 1590-4） PASCII Shift JIS SI 960（英语：SI 960） TIS-620（英语：Thai Industrial Standard 620-2533） TSCII VISCII（英语：VISCII） VSCII YUSCII（英语：YUSCII）
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367（英语：ISO/IEC 10367） EUC ISO-IR-165
macOS代码页	亚美尼亚文（英语：Mac OS Armenian）阿拉伯文巴伦支西里尔字母（英语：Mac OS Barents Cyrillic）凯尔特语族（英语：Mac OS Celtic）中欧语言克罗地亚文（英语：Mac OS Croatian encoding）西里尔字母（英语：Mac OS Cyrillic encoding）梵文波斯文（英语：MacFarsi encoding）字体X（英语：Macintosh Font X encoding）盖尔文（英语：Mac OS Gaelic）乔治亚文（英语：Mac OS Georgian）希腊文（英语：MacGreek encoding）古吉拉特文（英语：Mac OS Gujarati）古木基文（英语：Mac OS Gurmukhi）希伯来文（英语：Mac OS Hebrew）冰岛文（英语：Mac OS Icelandic encoding）因纽特文（英语：Mac OS Inuit）键盘（英语：Mac OS Keyboard encoding）拉丁文（英语：Macintosh Latin encoding）马耳他文／世界文（英语：Mac OS Maltese/Esperanto encoding）欧甘字母（英语：Mac OS Ogham）罗曼语族罗马尼亚文（英语：Mac OS Romanian encoding）萨米文（英语：Mac OS Sámi）土耳其文（英语：Mac OS Turkish encoding）土耳其西里尔字母（英语：Mac OS Turkic Cyrillic）乌克兰文（英语：Mac OS Ukrainian encoding） VT100（英语：VT100 encoding）
DOS代码页	437 668（英语：Code page 668） 708（英语：Code page 708） 720（英语：Code page 720） 737（英语：Code page 737） 770（英语：Code page 770） 773（英语：Code page 773） 775（英语：Code page 775） 776（英语：Code page 776） 777（英语：Code page 777） 778（英语：Code page 778） 850（英语：Code page 850） 851（英语：Code page 851） 852（英语：Code page 852） 853（英语：Code page 853） 855（英语：Code page 855） 856（英语：Code page 856） 857（英语：Code page 857） 858（英语：Code page 858） 859（英语：Code page 859） 860（英语：Code page 860） 861（英语：Code page 861） 862（英语：Code page 862） 863（英语：Code page 863） 864（英语：Code page 864） 865（英语：Code page 865） 866（英语：Code page 866） 867（英语：Code page 867） 868（英语：Code page 868） 869（英语：Code page 869） 897（英语：Code page 897） 899（英语：Code page 899） 903（英语：Code page 903） 904（英语：Code page 904） 932（英语：Code page 932 (IBM)） 936（英语：Code page 936 (IBM)） 942（英语：Code page 942） 949（英语：Code page 949 (IBM)） 950 951（英语：Code page 951） 1040（英语：Code page 1040） 1042（英语：Code page 1042） 1043（英语：Code page 1043） 1046（英语：Code page 1046） 1098（英语：Code page 1098） 1115（英语：Code page 1115） 1116（英语：Code page 1116） 1117（英语：Code page 1117） 1118（英语：Code page 1118） 1127（英语：Code page 1127） 3846（英语：Code page 3846） ABICOMP（英语：ABICOMP character set） CS Indic（英语：CS Indic character set） CSX Indic（英语：CSX Indic character set） CSX+ Indic（英语：CSX+ Indic character set） CWI-2（英语：CWI-2）伊朗系统（英语：Iran System encoding）卡梅尼茨（英语：Kamenický encoding）马索维亚（英语：Mazovia encoding） MIK（英语：MIK (character set)）
IBM AIX代码页	895（英语：Code page 895） 896（英语：Code page 896） 912（英语：Code page 912） 915（英语：Code page 915） 921（英语：Code page 921） 922（英语：Code page 922） 1006（英语：Code page 1006） 1008（英语：Code page 1008） 1009（英语：Code page 1009） 1010（英语：Code page 1010） 1012（英语：Code page 1012） 1013（英语：Code page 1013） 1014（英语：Code page 1014） 1015（英语：Code page 1015） 1016（英语：Code page 1016） 1017（英语：Code page 1017） 1018（英语：Code page 1018） 1019（英语：Code page 1019） 1124（英语：Code page 1124） 1133（英语：Code page 1133）
Microsoft Windows代码页（英语：Windows code page）	CER-GS（英语：CER-GS） 932（英语：Code page 932 (Microsoft Windows)） 936 GBK 950 1169（英语：Code page 1169） Extended Latin-8（英语：Extended Latin-8） 1250（英语：Windows-1250） 1251（英语：Windows-1251） 1252 1253（英语：Windows-1253） 1254（英语：Windows-1254） 1255（英语：Windows-1255） 1256（英语：Windows-1256） 1257（英语：Windows-1257） 1258（英语：Windows-1258） 1270（英语：Windows-1270）西里尔字母+芬兰文（英语：Windows Cyrillic + Finnish）西里尔字母+法文（英语：Windows Cyrillic + French）西里尔字母+德文（英语：Windows Cyrillic + German）希腊语变音符号（英语：Windows Polytonic Greek）
EBCDIC代码页	37（英语：Code page 37） EBCDIC中的日文（英语：Japanese language in EBCDIC） DKOI（英语：DKOI）
DEC终端（VTx（英语：VT220））	MCS（英语：Multinational Character Set） NRCS（英语：National Replacement Character Set）加拿大法文（英语：Code page 1020）瑞士文（英语：Code page 1021）西班牙文（英语：Code page 1023）英国英文（英语：Code page 1101）荷兰文（英语：Code page 1102）芬兰文（英语：Code page 1103）法文（英语：Code page 1104）挪威文／丹麦文（英语：Code page 1105）瑞典文（英语：Code page 1106）挪威文／丹麦文（替代）（英语：Code page 1107） 8位希腊文（英语：Code page 1287） 8位土耳其文（英语：Code page 1288） SI 960（英语：SI 960）希伯来文（英语：DEC Hebrew）特殊图形（英语：DEC Special Graphics）技术（英语：DEC Technical Character Set）
特定平台	1057（英语：Code page 1057） Acorn（英语：RISC OS character set） Adobe标准（英语：PostScript Standard Encoding） Adobe Latin 1（英语：PostScript Latin 1 Encoding） Amstrad CPC（英语：Amstrad CPC character set） Apple II（英语：Apple II character set）雅达利信息交换标准码（英语：ATASCII）雅达利ST（英语：Atari ST character set） BICS（英语：Bitstream International Character Set）卡西欧计算机（英语：Casio calculator character sets） CDC（英语：CDC display code） Compucolor II（英语：Compucolor II character set） CP/M+（英语：Amstrad CP/M Plus character set） DEC RADIX 50（英语：DEC RADIX 50） DEC MCS（英语：Multinational Character Set）/NRCS（英语：National Replacement Character Set） DG国际（英语：DG International） Fieldata（英语：Fieldata） GEM（英语：GEM character set） GSM 03.38（英语：GSM 03.38） HP Roman（英语：HP Roman） HP FOCAL（英语：FOCAL character set） HP RPL（英语：RPL character set） SQUOZE（英语：SQUOZE） LICS（英语：Lotus International Character Set） LMBCS（英语：Lotus Multi-Byte Character Set） MSX（英语：MSX character set） NEC APC（英语：NEC APC character set） NeXT（英语：NeXT character set） PETSCII（英语：PETSCII） SEGA SC-3000（英语：Sega SC-3000 character set）夏普计算机（英语：Sharp pocket computer character sets）夏普MZ（英语：Sharp MZ character set）辛克莱QL（英语：Sinclair QL character set）符号电传文讯（英语：Teletext character set）德州仪器计算机（英语：TI calculator character sets） TRS-80（英语：TRS-80 character set）文图拉国际（英语：Ventura International） WISCII（英语：Wang International Standard Code for Information Interchange） XCCS（英语：Xerox Character Code Standard） ZX80（英语：ZX80 character set） ZX81（英语：ZX81 character set） ZX Spectrum（英语：ZX Spectrum character set）
Unicode及通用字符集	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC（英语：UTF-EBCDIC） GB 18030 BOCU-1 CESU-8 SCSU TACE16（英语：Tamil All Character Encoding） Unicode编码比较（英语：Comparison of Unicode encodings）
TeX排版系统	科克（英语：Cork encoding） LY1（英语：LY1 encoding） OML（英语：OML encoding） OMS（英语：OMS encoding） OT1（英语：OT1 encoding）
其他代码页	ABICOMP（英语：ABICOMP character set） ASMO 449（英语：ASMO 449）大五码 APL符号数字编码（英语：Digital encoding of APL symbols） ISO-IR-68（英语：ISO-IR-68） ARIB STD-B24 HZ（英语：HZ (character encoding)） IEC-P27-1（英语：IEC-P27-1） INIS 7比特（英语：INIS character set） INIS-8（英语：8位元） ISO-IR-169（英语：ISO-IR-169） ISO 2033（英语：ISO 2033） KOI -R -RU（英语：KOI8-RU） -U 今昔文字镜 SEASCII（英语：Stanford Extended ASCII） Stanford/ITS（英语：Stanford/ITS character set） TRON（英语：TRON (encoding)）统合韩文代码（英语：Unified Hangul Code）
控制字符	摩斯电码专用代码（英语：Prosigns for Morse code） C0与C1控制字符 ISO/IEC 6429 JIS X 0211（英语：JIS X 0211） Unicode控制字符空白字符
相关条目	CCSID（英语：CCSID） HTML字符编码字符集探测中日韩统一表意文字硬件代码页（英语：Hardware code page）磁性墨水字符标识符（英语：Magnetic ink character recognition）乱码中文乱码可变宽度编码
字符集