ISO/IEC 8859

维基百科,自由的百科全书
跳转至: 导航搜索

ISO 8859,全称ISO/IEC 8859,是国际标准化组织(ISO)及国际电工委员会(IEC)联合制定的一系列8字符集的标准,现时定义了15个字符集。

引言[编辑]

ASCII收录了空格及94个“可印刷字符”,足以给英语使用。但是,其他使用拉丁字母的语言(主要是欧洲国家的语言),都有一定数量的附加符号字母,故可以使用ASCII及控制字符以外的区域来储存及表示。

除了使用拉丁字母的语言外,使用西里尔字母的东欧语言、希腊语泰语、现代阿拉伯语希伯来语等,都可以使用这个形式来储存及表示。

1982年,ANSI与ECMA合作开启此项工作。1985年,公布了ECMA-94,即后来的ISO/IEC 8859 parts 1, 2, 3, 4。第5、6、7、8、9、10、11、12、13、14、15、16部分分别公布于1988年、1987年、1987年、1987年、1989年、1992年、2001年、1997年(正式宣布放弃研发)、1998年、1998年、1999年、2001年。

ISO 8859是基于ISO 2022标准的基础上,在ISO 2022规定的G0码位区域表示ISO 646的95个可打印字符;在C0与C1的控制字符码位区域,表示ISO 6429定义的控制字符;而在G1码位区域,则是由ISO 8859的16个部分各自定义扩展的可打印字符。因此,ISO 8859完全兼容7位的ASCII码。ISO 8859没有使用ISO 2022中的G2、G3区域,也不再使用ISO 2022定义的用来在不同的字符编码集或在同一个编码集的G0、G1、G2、G3区域间转换的“控制字符转义序列”。

ISO 8859统一了此前各国各语言的单独编码的混乱局面;废弃了ASCII/ISO 646使用的退格键开始的转义序列来表示变音字母的方法,而是在G1区域直接编码表示变音字母。

ISO 8859是在1980年代中期甚至1990年代才陆续公布的。因此,微软公司与IBM公司等此前已经在其产品,如MS-DOS, IBM PC上使用了各自定义的编码字符集(即“代码页”Codepage)。ISO 8859公布后,也出现了一些广泛使用的代码页兼容并扩充了ISO 8859。例如,Windows代码页1252作为英文及一些西欧语言版Windows操作系统的默认编码(locale),是 ISO 8859-1 的超集。主要扩充之处是把ISO 8859-1 的保留未用的C1区(即码位0x80-0x9F)用来编码一些可打印字符: ƒ ˆ Š Œ Ž ˜ š œ ž Ÿ 共计27个,其中各种引号就有8个。

各种ISO 8859字符集[编辑]

  • ISO 8859-8-I - 希伯来语(逻辑顺序)

由於英语没有任何重音字母(不计外来词),故可使用以上十五个字集中的任何一个来表示。

至於德语方面,因它除了 A-Z, a-z 外,只用 Ä, Ö, Ü, ä, ö, ß, ü 七个字母,而所有拉丁字集(1-4, 9-10, 13-16)均有此七个字母,故德语可使用以上十个字集中的任何一个来表示。

此系列中没有-12号的原因是,此计划原本要设计成一个包含塞尔特语族字符集的“Latin-7”,但后来塞尔特语族变成了ISO 8859-14 / Latin-8。亦有一说谓-12号本来是预留给印度天城体梵文的,但后来却搁置了。

基本结构[编辑]

每个字集定义最多96个字母或符号,在0xA0-0xFF根据不同字符集放入不同的字符。

ISO/IEC 8859十五个字符集的比较
Bin Oct Dec Hex 1 2 3 4 5 6 7 8 9 10 11 13 14 15 16
10100000 240 160 A0 NBSP
10100001 241 161 A1 ¡ Ą Ħ Ą Ё ¡ Ą ¡ Ą
10100010 242 162 A2 ¢ ˘ ˘ ĸ Ђ ¢ ¢ Ē ¢ ¢ ą
10100011 243 163 A3 £ Ł £ Ŗ Ѓ £ £ £ Ģ £ £ £ Ł
10100100 244 164 A4 ¤ ¤ ¤ ¤ Є ¤ ¤ ¤ Ī ¤ Ċ
10100101 245 165 A5 ¥ Ľ Ĩ Ѕ ¥ ¥ Ĩ ċ ¥
10100110 246 166 A6 ¦ Ś Ĥ Ļ І ¦ ¦ ¦ Ķ ¦ Š Š
10100111 247 167 A7 § § § § Ї § § § § § § § §
10101000 250 168 A8 ¨ ¨ ¨ ¨ Ј ¨ ¨ ¨ Ļ Ø š š
10101001 251 169 A9 © Š İ Š Љ © © © Đ © © © ©
10101010 252 170 AA ª Ş Ş Ē Њ ͺ × ª Š Ŗ ª Ș
10101011 253 171 AB « Ť Ğ Ģ Ћ « « « Ŧ « « «
10101100 254 172 AC ¬ Ź Ĵ Ŧ Ќ ، ¬ ¬ ¬ Ž ¬ ¬ Ź
10101101 255 173 AD ­ ­ ­ ­ ­ ­ ­ ­ ­ ­ ­ ­ ­ ­
10101110 256 174 AE ® Ž Ž Ў ® ® Ū ® ® ® ź
10101111 257 175 AF ¯ Ż Ż ¯ Џ ¯ ¯ Ŋ Æ Ÿ ¯ Ż
10110000 260 176 B0 ° ° ° ° А ° ° ° ° ° ° °
10110001 261 177 B1 ± ą ħ ą Б ± ± ± ą ± ± ±
10110010 262 178 B2 ² ˛ ² ˛ В ² ² ² ē ² Ġ ² Č
10110011 263 179 B3 ³ ł ³ ŗ Г ³ ³ ³ ģ ³ ġ ³ ł
10110100 264 180 B4 ´ ´ ´ ´ Д ΄ ´ ´ ī Ž Ž
10110101 265 181 B5 µ ľ µ ĩ Е ΅ µ µ ĩ µ µ
10110110 266 182 B6 ś ĥ ļ Ж Ά ķ
10110111 267 183 B7 · ˇ · ˇ З · · · · · · ·
10111000 270 184 B8 ¸ ¸ ¸ ¸ И Έ ¸ ¸ ļ ø ž ž
10111001 271 185 B9 ¹ š ı š Й Ή ¹ ¹ đ ¹ ¹ č
10111010 272 186 BA º ş ş ē К Ί ÷ º š ŗ º ș
10111011 273 187 BB » ť ğ ģ Л ؛ » » » ŧ » » »
10111100 274 188 BC ¼ ź ĵ ŧ М Ό ¼ ¼ ž ¼ Œ Œ
10111101 275 189 BD ½ ˝ ½ Ŋ Н ½ ½ ½ ½ œ œ
10111110 276 190 BE ¾ ž ž О Ύ ¾ ¾ ū ¾ Ÿ Ÿ
10111111 277 191 BF ¿ ż ż ŋ П ؟ Ώ ¿ ŋ æ ¿ ż
11000000 300 192 C0 À Ŕ À Ā Р ΐ À Ā Ą À À À
11000001 301 193 C1 Á Á Á Á С ء Α Á Á Į Á Á Á
11000010 302 194 C2 Â Â Â Â Т آ Β Â Â Ā Â Â Â
11000011 303 195 C3 Ã Ă Ã У أ Γ Ã Ã Ć Ã Ã Ă
11000100 304 196 C4 Ä Ä Ä Ä Ф ؤ Δ Ä Ä Ä Ä Ä Ä
11000101 305 197 C5 Å Ĺ Ċ Å Х إ Ε Å Å Å Å Å Ć
11000110 306 198 C6 Æ Ć Ĉ Æ Ц ئ Ζ Æ Æ Ę Æ Æ Æ
11000111 307 199 C7 Ç Ç Ç Į Ч ا Η Ç Į Ē Ç Ç Ç
11001000 310 200 C8 È Č È Č Ш ب Θ È Č Č È È È
11001001 311 201 C9 É É É É Щ ة Ι É É É É É É
11001010 312 202 CA Ê Ę Ê Ę Ъ ت Κ Ê Ę Ź Ê Ê Ê
11001011 313 203 CB Ë Ë Ë Ë Ы ث Λ Ë Ë Ė Ë Ë Ë
11001100 314 204 CC Ì Ě Ì Ė Ь ج Μ Ì Ė Ģ Ì Ì Ì
11001101 315 205 CD Í Í Í Í Э ح Ν Í Í Ķ Í Í Í
11001110 316 206 CE Î Î Î Î Ю خ Ξ Î Î Ī Î Î Î
11001111 317 207 CF Ï Ď Ï Ī Я د Ο Ï Ï Ļ Ï Ï Ï
11010000 320 208 D0 Ð Đ Đ а ذ Π Ğ Ð Š Ŵ Ð Đ
11010001 321 209 D1 Ñ Ń Ñ Ņ б ر Ρ Ñ Ņ Ń Ñ Ñ Ń
11010010 322 210 D2 Ò Ň Ò Ō в ز Ò Ō Ņ Ò Ò Ò
11010011 323 211 D3 Ó Ó Ó Ķ г س Σ Ó Ó Ó Ó Ó Ó
11010100 324 212 D4 Ô Ô Ô Ô д ش Τ Ô Ô Ō Ô Ô Ô
11010101 325 213 D5 Õ Ő Ġ Õ е ص Υ Õ Õ Õ Õ Õ Ő
11010110 326 214 D6 Ö Ö Ö Ö ж ض Φ Ö Ö Ö Ö Ö Ö
11010111 327 215 D7 × × × × з ط Χ × Ũ × × Ś
11011000 330 216 D8 Ø Ř Ĝ Ø и ظ Ψ Ø Ø Ų Ø Ø Ű
11011001 331 217 D9 Ù Ů Ù Ų й ع Ω Ù Ų Ł Ù Ù Ù
11011010 332 218 DA Ú Ú Ú Ú к غ Ϊ Ú Ú Ś Ú Ú Ú
11011011 333 219 DB Û Ű Û Û л Ϋ Û Û Ū Û Û Û
11011100 334 220 DC Ü Ü Ü Ü м ά Ü Ü Ü Ü Ü Ü
11011101 335 221 DD Ý Ý Ŭ Ũ н έ İ Ý Ż Ý Ý Ę
11011110 336 222 DE Þ Ţ Ŝ Ū о ή Ş Þ Ž Ŷ Þ Ț
11011111 337 223 DF ß ß ß ß п ί ß ß ฿ ß ß ß ß
11100000 340 224 E0 à ŕ à ā р ـ ΰ א à ā ą à à à
11100001 341 225 E1 á á á á с ف α ב á á į á á á
11100010 342 226 E2 â â â â т ق β ג â â ā â â â
11100011 343 227 E3 ã ă ã у ك γ ד ã ã ć ã ã ă
11100100 344 228 E4 ä ä ä ä ф ل δ ה ä ä ä ä ä ä
11100101 345 229 E5 å ĺ ċ å х م ε ו å å å å å ć
11100110 346 230 E6 æ ć ĉ æ ц ن ζ ז æ æ ę æ æ æ
11100111 347 231 E7 ç ç ç į ч ه η ח ç į ē ç ç ç
11101000 350 232 E8 è č è č ш و θ ט è č č è è è
11101001 351 233 E9 é é é é щ ى ι י é é é é é é
11101010 352 234 EA ê ę ê ę ъ ي κ ך ê ę ź ê ê ê
11101011 353 235 EB ë ë ë ë ы ً λ כ ë ë ė ë ë ë
11101100 354 236 EC ì ě ì ė ь ٌ μ ל ì ė ģ ì ì ì
11101101 355 237 ED í í í í э ٍ ν ם í í ķ í í í
11101110 356 238 EE î î î î ю َ ξ מ î î ī î î î
11101111 357 239 EF ï ď ï ī я ُ ο ן ï ï ļ ï ï ï
11110000 360 240 F0 ð đ đ ِ π נ ğ ð š ŵ ð đ
11110001 361 241 F1 ñ ń ñ ņ ё ّ ρ ס ñ ņ ń ñ ñ ń
11110010 362 242 F2 ò ň ò ō ђ ْ ς ע ò ō ņ ò ò ò
11110011 363 243 F3 ó ó ó ķ ѓ σ ף ó ó ó ó ó ó
11110100 364 244 F4 ô ô ô ô є τ פ ô ô ō ô ô ô
11110101 365 245 F5 õ ő ġ õ ѕ υ ץ õ õ õ õ õ ő
11110110 366 246 F6 ö ö ö ö і φ צ ö ö ö ö ö ö
11110111 367 247 F7 ÷ ÷ ÷ ÷ ї χ ק ÷ ũ ÷ ÷ ś
11111000 370 248 F8 ø ř ĝ ø ј ψ ר ø ø ų ø ø ű
11111001 371 249 F9 ù ů ù ų љ ω ש ù ų ł ù ù ù
11111010 372 250 FA ú ú ú ú њ ϊ ת ú ú ś ú ú ú
11111011 373 251 FB û ű û û ћ ϋ û û ū û û û
11111100 374 252 FC ü ü ü ü ќ ό ü ü ü ü ü ü
11111101 375 253 FD ý ý ŭ ũ § ύ LRM ı ý ż ý ý ę
11111110 376 254 FE þ ţ ŝ ū ў ώ RLM ş þ ž ŷ þ ț
11111111 377 255 FF ÿ · · · џ ÿ ĸ ÿ ÿ ÿ

在0xA0的位置是“不换行空格”。

在0xAD的位置,大部分都放入了“选择性连字号英语Soft hyphen”(即只在一个文字在它的中间换行时才出现的连字号),若你使用的浏览器支援选择性连字号,上表将不会有任何显示。

黄色的是ISO/IEC 8859-7:2003版本及ISO/IEC 8859-8:1999版本新增的符号。LRM是“左至右符号”、RLM是“右至左符号”。

绿色的是该字集未有定义该位置。

0x00-0x1F、0x7F、0x80-0x9F在此字符集中未有定义。(控制字符是由ISO/IEC 6429定义)。

ISO 8859与ISO-8859的关系[编辑]

ISO/IEC 8859-n之中,国际标准化组织只替每个字符集定义了最多96个字符(0xA0-0xFF)。

ISO-8859-n(在ISO与8859之间加上一连字号)则是由IANA根据ISO/IEC 8859-n所定义的编码表。它除了ISO/IEC 8859-n的字符外,还包括ASCII(0x20-0x7E)字符及65个控制字符(0x00-0x1F及0x7F-0x9F)。

类似ISO 8859的编码[编辑]

ISO 8859-12这个号码本来是预留给印度天城体梵文的,但最终未有定义。印度有自己的编码-ISCII

JIS X 0201日语片假名的字符集标准,能与ISO 8859兼容。

VISCII越南语在本土以外的僑民最常用的字符集标准。但因越南语有超过一百个重音字母,故不兼容ISO 8859。越南國家標準另有符合ISO8859標準的字符集,但字符需要組合,像泰文一樣。

ISO 6438是非洲字母的字符集,但甚少被採納。

发展状况[编辑]

ISO/IEC 8859 标准由 ISO/IEC 第一联合技术委员会第二分委员会第三工作组(ISO/IEC JTC 1/SC 2/WG 3)管理。2004 年 6 月,第三工作组解散,管理工作移交给第二分委员会。这份标准现在不再更新,因为这个分委员会唯一的工作组——第二工作组,正着力于ISO/IEC 10646的开发。

参看[编辑]

外部链接[编辑]

  • 部分由ISO/IEC JTC 1/SC 2/WG 3出版的部分ISO/IEC 8859最后审核草案(PDF版本),可从 WG 3网站 获取:
    • ISO/IEC 8859-1:1998 - 8-bit single-byte coded graphic character sets, Part 1: Latin alphabet No. 1 (draft dated February 12, 1998, published April 15, 1998)
    • ISO/IEC 8859-4:1998 - 8-bit single-byte coded graphic character sets, Part 4: Latin alphabet No. 4 (draft dated February 12, 1998, published July 1, 1998)
    • ISO/IEC 8859-7:1999 - 8-bit single-byte coded graphic character sets, Part 7: Latin/Greek alphabet (draft dated June 10, 1999; superseded by ISO/IEC 8859-7:2003, published October 10, 2003)
    • ISO/IEC 8859-10:1998 - 8-bit single-byte coded graphic character sets, Part 10: Latin alphabet No. 6 (draft dated February 12, 1998, published July 15, 1998)
    • ISO/IEC 8859-11:1999 - 8-bit single-byte coded graphic character sets, Part 11: Latin/Thai character set (draft dated June 22, 1999; superseded by ISO/IEC 8859-11:2001, published Dec 15, 2001)
    • ISO/IEC 8859-13:1998 - 8-bit single-byte coded graphic character sets, Part 13: Latin alphabet No. 7 (draft dated April 15, 1998, published October 15, 1998)
    • ISO/IEC 8859-15:1998 - 8-bit single-byte coded graphic character sets, Part 15: Latin alphabet No. 9 (draft dated August 1, 1997; superseded by ISO/IEC 8859-15:1999, published March 15, 1999)
    • ISO/IEC 8859-16:2000 - 8-bit single-byte coded graphic character sets, Part 16: Latin alphabet No. 10 (draft dated November 15, 1999; superseded by ISO/IEC 8859-16:2001, published July 15, 2001)
  • ECMA standards, which in intent correspond exactly to the ISO/IEC 8859 character set standards, can be found at:
    • Standard ECMA-94:8-Bit Single Byte Coded Graphic Character Sets - Latin Alphabets No. 1 to No. 4 2nd edition (June 1986)
    • Standard ECMA-113:8-Bit Single-Byte Coded Graphic Character Sets - Latin/Cyrillic Alphabet 3rd edition (December 1999)
    • Standard ECMA-114:8-Bit Single-Byte Coded Graphic Character Sets - Latin/Arabic Alphabet 2nd edition (December 2000)
    • Standard ECMA-118:8-Bit Single-Byte Coded Graphic Character Sets - Latin/Greek Alphabet (December 1986)
    • Standard ECMA-121:8-Bit Single-Byte Coded Graphic Character Sets - Latin/Hebrew Alphabet 2nd edition (December 2000)
    • Standard ECMA-128:8-Bit Single-Byte Coded Graphic Character Sets - Latin Alphabet No. 5 2nd edition (December 1999)
    • Standard ECMA-144:8-Bit Single-Byte Coded Character Sets - Latin Alphabet No. 6 3rd edition (December 2000)
  • 中華民國國家標準》制定了9个标准以对应ISO/IEC 8859的字符集
    • CNS 13246 資訊處理–8位元單一位元組碼化圖形字元集(第1部:拉丁字母第一號)
    • CNS 13247 資訊處理–8位元單一位元組碼化圖形字元集(第2部:拉丁字母第二號)
    • CNS 13325 資訊處理–8位元單一位元組碼化圖形字元集(第3部:拉丁字母第三號)
    • CNS 13326 資訊處理–8位元單一位元組碼化圖形字元集(第4部:拉丁字母第四號)
    • CNS 13327 資訊處理–8位元單一位元組碼化圖形字元集(第5部:拉丁/斯拉夫字母)
    • CNS 13328 資訊處理–8位元單一位元組碼化圖形字元集(第9部:拉丁字母第五號)
    • CNS 13384 資訊處理–8位元單一位元組碼化圖形字元集(第6部:拉丁/阿拉伯字母)
    • CNS 13385 資訊處理–8位元單一位元組碼化圖形字元集(第7部:拉丁/希臘字母)
    • CNS 13386 資訊處理–8位元單一位元組碼化圖形字元集(第8部:拉丁/希伯來字母)
  • 中华人民共和国国家标准》制定了5个标准以对应ISO/IEC 8859的字符集
    • GB/T 15273.1-1994 信息处理 八位单字节编码图形字符集 第一部分:拉丁字母一
    • GB/T 15273.2-1995 信息处理 八位单字节编码图形字符集 第二部分:拉丁字母二
    • GB/T 15273.3-1995 信息处理 八位单字节编码图形字符集 第三部分:拉丁字母三
    • GB/T 15273.4-1995 信息处理 八位单字节编码图形字符集 第四部分:拉丁字母四
    • GB/T 15273.7-1996 信息处理 八位单字节编码图形字符集 第七部分:拉丁/希腊字母