ISO/IEC 8859-1
ISO 8859-1,正式編號為ISO/IEC 8859-1:1998,又稱Latin-1或「西歐語言」,是國際標準化組織內ISO/IEC 8859的第一個8位字符集。它以ASCII為基礎,在空置的0xA0-0xFF的範圍內,加入96個字母及符號,藉以供使用附加符號的拉丁字母語言使用。曾推出過 ISO 8859-1:1987 版。
ISO-8859-1的別名有: iso-ir-100、csISOLatin1、 latin1、 l1、 IBM819。Oracle數據庫稱WE8ISO8859P1。[1]
與Windows-1252的區別
[編輯]互聯網上,常見把Windows-1252編碼的文本誤標稱為ISO-8859-1,最常見後果是引號與撇號‘ ’“ ”在非Windows環境下被當作不識別字符顯示為問號或方塊(boxes)字符。大部分現代網頁瀏覽器與e-mail客戶端把互聯網媒體類型字符集為ISO-8859-1當作Windows-1252來處理。HTML5標準要求把宣稱為ISO-8859-1的文本當作Windows-1252編碼來解析。[2]
截至2017年10月[update],4.5%聲明是ISO 8859-1編碼。[3]這包含了未知數量的實際上是Windows-1252或UTF-8編碼的網頁常常被瀏覽器識別為ISO 8859-1編碼。
ISO-8859-1與Windows-1252代碼頁的區別是:碼位128至159(十六進制80至9F)原本是罕用的C1控制字符編碼範圍,被替換為額外的一些常用但未包含在ISO-8859-1中的字符。實際上Windows-1252代碼頁包含了所有出現在ISO-8859-15中的字符。ISO-8859-1對應的Windows代碼頁是Windows-28591。[4]然而,英文版的Windows 7、Windows10家庭中文版系統上沒有Windows-28591代碼頁。
與ISO/IEC 10646即Unicode的關係
[編輯]ISO-8859-1對應於ISO/IEC 10646即Unicode的前256個碼位。
適用語言
[編輯]此字符集支持部分於歐洲使用的語言,包括阿爾巴尼亞語、巴斯克語、布列塔尼語、加泰羅尼亞語、丹麥語、荷蘭語、法羅語、弗里西語、加利西亞語、德語、格陵蘭語、冰島語、愛爾蘭蓋爾語、意大利語、拉丁語、盧森堡語、挪威語、葡萄牙語、里托羅曼斯語、蘇格蘭蓋爾語、西班牙語及瑞典語。
英語雖然沒有重音字母,但仍會標明為ISO/IEC 8859-1編碼。除此之外,歐洲以外的部分語言,如南非荷蘭語、斯瓦希里語、印尼語及馬來語、菲律賓他加洛語等也可使用ISO/IEC 8859-1編碼。
法語及芬蘭語本來也使用ISO/IEC 8859-1來表示。但因它沒有法語使用的 œ、Œ、Ÿ 三個字母及芬蘭語使用的 Š、š、Ž、ž ,故於1998年被ISO/IEC 8859-15所取代。(ISO 8859-15同時加入了歐元符號)
字符集
[編輯]ISO/IEC 8859-1 | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
x0 | x1 | x2 | x3 | x4 | x5 | x6 | x7 | x8 | x9 | xA | xB | xC | xD | xE | xF | |
0x | ||||||||||||||||
1x | ||||||||||||||||
2x | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5x | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
6x | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7x | p | q | r | s | t | u | v | w | x | y | z | { | | | } | ~ | |
8x | ||||||||||||||||
9x | ||||||||||||||||
Ax | NBSP | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | SHY | ® | ¯ |
Bx | ° | ± | ² | ³ | ´ | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ |
Cx | À | Á | Â | Ã | Ä | Å | Æ | Ç | È | É | Ê | Ë | Ì | Í | Î | Ï |
Dx | Ð | Ñ | Ò | Ó | Ô | Õ | Ö | × | Ø | Ù | Ú | Û | Ü | Ý | Þ | ß |
Ex | à | á | â | ã | ä | å | æ | ç | è | é | ê | ë | ì | í | î | ï |
Fx | ð | ñ | ò | ó | ô | õ | ö | ÷ | ø | ù | ú | û | ü | ý | þ | ÿ |
在上表中,0x20是空格、0xA0是不換行空格、0xAD是選擇性連接號。
0x00-0x1F、0x7F、0x80-0x9F在此字符集中未有定義。(控制字符是由ISO/IEC 6429定義)。
參考資料
[編輯]- ^ Baird, Cathy; Chiba, Dan; Chu, Winson; Fan, Jessica; Ho, Claire; Law, Simon; Lee, Geoff; Linsley, Peter; Matsuda, Keni; Oscroft, Tamzin; Takeda, Shige; Tanaka, Linus; Tozawa, Makoto; Trute, Barry; Tsujimoto, Mayumi; Wu, Ying; Yau, Michael; Yu, Tim; Wang, Chao; Wong, Simon; Zhang, Weiran; Zheng, Lei; Zhu, Yan; Moore, Valarie. Appendix A: Locale Data. Oracle9i Database Globalization Support Guide (PDF) Release 2 (9.2). Oracle Corporation. 2002 [1996] [2017-02-14]. Oracle A96529-01. (原始內容存檔 (PDF)於2017-02-14).
- ^ Encoding. WHATWG. sec. 5.2 Names and labels. 27 January 2015 [4 February 2015]. (原始內容存檔於2015-02-04).
- ^ Historical trends in the usage of character encodings, October 2016. [2017-10-24]. (原始內容存檔於2021-03-03).
- ^ Code Page Identifiers. Microsoft Corporation. [2010-12-19]. (原始內容存檔於2010-12-15).
參閲
[編輯]外部連結
[編輯]- 到國際標準化組織購買此標準(頁面存檔備份,存於互聯網檔案館)
- ISO/IEC 8859-1:1998 - 8-bit single-byte coded graphic character sets, Part 1: Latin alphabet No. 1 (draft dated February 12, 1998, published April 15, 1998)
- Standard ECMA-94(頁面存檔備份,存於互聯網檔案館):8-Bit Single Byte Coded Graphic Character Sets - Latin Alphabets No. 1 to No. 4 2nd edition (June 1986)
- ISO-IR 100 Right-Hand Part of Latin Alphabet No.1 (February 1, 1986)
- 中國國家標準(中華民國)CNS 13246(頁面存檔備份,存於互聯網檔案館)