ISO-IR-165
ISO-IR-165《通訊用中文多位元組字符集》(Codes of the Chinese graphic character set for communication)是中國大陸於1992年為國際電信聯盟電信標準化部門(CCITT)[1] 創製之中文多位元組通訊字符集。該編碼在ISO 2022下註冊的名稱為 ISO-IR-165,可以使用 ISO-2022-CN-EXT 進行編碼。
ISO-IR-165 整合 GB 2312(包括 GB/T 6345.1-86《信息交換用漢字 32x32 點陣字模集》新增之字符及調整[2])以及 GB/T 8565.2-88《信息處理文本通信用編碼字符集 第二部分:圖形字符集》。該標準合共 8446 個字符。
GB/T 6345.1的修訂和補充
[編輯]GB/T 6345.1-1986《信息交換用漢字 32x32 點陣字模集》(後續改成GB/T 6345.1-2010)包括了對 GB/T 2312 的修正和補充。[2]相關的修訂最早是由GB 5007.1–85《信息交換用漢字 24x24 點陣字模集》所加入。
區位碼 | EUC碼 | GB/T 2312(未修訂) | GB/T 6341.1 | 備註 |
---|---|---|---|---|
03-71 | 0xA3E7 | ɡ | [a] | |
79-81 | 0xEFF1 | 鍾 | 鍾 | [b] |
後續實踐 GB/T 2312 的編碼(如Windows 的代碼頁936)將 79-81 對應的漢字 Unicode 碼從「鍾」改為「锺」。[3]
GB/T 6345.1-86 也在 GB/T 2312 的基礎上在第 10 區補充了ISO 646-CN 的半寬字符(3 區的字符為全寬字符)和第 8 區補充了 6 個漢語拼音字符。[2]這些補充也在 GB/T 12345 內出現,而 GB/T 12345 也額外在第 6 區加上了 29 個豎排標點符號。[2][4]
2011年發佈的 GB/T 6345.1-2010 正式在第 11 區增加了對應 8 區 32 個漢語拼音字符(包括新補充的6個字符)的半寬版本。[5]這個補充並未在 GB 18030 內實行。[6]
Classic Mac OS 內的簡體中文編碼(基於EUC-CN修改)[7] 和 GB 18030 包含了 GB/T 6345.1 補充的 6 個漢語拼音字符(但是不包括半寬版本)和 GB/T 12345 補充的豎排標點符號。[6] 新增的 6 個漢語拼音字符如下:[7]
區位碼 | EUC碼 | 字符[7][6] | 備註 |
---|---|---|---|
08-27 | 0xA8BB | U+0251 ɑ | |
08-28 | 0xA8BC | U+1E3F ḿ | [a] |
08-29 | 0xA8BD | U+0144 ń | |
08-30 | 0xA8BE | U+0148 ň | |
08-31 | 0xA8BF | U+01F9 ǹ | [b] |
08-32 | 0xA8C0 | U+0261 | [c] |
- ^ Windows CP936[8] 和 GB 18030-2000 映射至私用區 U+E7C7,GB 18030-2005 修改成
U+1E3F
。[6] - ^ 此字符是在 Unicode 3.0 新增的,在這之前該字符一般映射至
U+006E, U+0300
。[7] Windows CP936 映射至私用區U+E7C8
。[8] - ^ 與未修訂 GB/T 2312 的 03-71 一樣(見上表)。ISO-IR-165 的 Unicode 映射有差異。
GB/T 8565.2 的修訂和補充
[編輯]GB/T 8565.2-1988《信息處理文本通信用編碼字符集第二部分:圖形字符集》也定義了 GB/T 2312 的補充字符,在 13-15 區和 90-94 區之間新增了 705 個字符,其中 15 區新增的 69 個字符是非漢字。該修訂包括了 GB/T 6345.1 的修訂,但是沒有包括補充字符。[2]
Unihan 資料庫中引用中國大陸來源 GB/T 8565 的漢字使用 G8
來標示。[1]
CCITT 修訂
[編輯]ISO-IR-165 包括了 GB/T 6345.1 和 GB/T 8565.2 在 GB/T 2312 的新增補充字符。另外,ISO-IR-165 也新增了 161 個字符,其中 139 個漢字是「普通漢字和異體」。[2][9]有時這些 CCITT 的新增字會和 GB/T 8565.2 混淆,包括以前的 Unihan 資料庫。[1]
CCITT 在第 6 區新增了對應第 3 區的像字符[9],這些字符和 Mac OS 簡體中文[7] 和 GB 18030[6] 的新增字符相撞。
ISO-IR-165 包含了 GB/T 6345.1 的訂正,但是其中有兩個字符的 Unicode 映射與 GB/T 2312 和 GB/T 6345.1 擴展的映射不同。下表顯示各標準的映射和對應字形,也另附 GB 18030 的對應編碼:
區位碼 | EUC碼 | GB/T 2312(未修訂) | GB/T 6345.1[5] | GB/T 6345.1 映射[7] | ISO-IR-165[9] | ISO-IR-165映射[10] | GB 18030[6] | GB 18030 映射[6] |
---|---|---|---|---|---|---|---|---|
03-71 | 0xA3E7 | ɡ | U+FF47 | ɡ | U+0261 | U+FF47 | ||
08-32 | 0xA8C0 | (無) | U+0261 | U+FF47 | ɡ | U+0261 | ||
79-81 | 0xEFF1 | 鍾 | 锺 | U+953A | 锺 | U+953A | 锺 | U+953A |
來源
[編輯]- ^ 1.0 1.1 1.2 Chung, Jaemin. Pseudo-G8 characters (PDF). 2018-01-24 [2022-05-05]. ISO/IEC JTC 1/SC 2/WG 2/IRG N2276. (原始內容 (PDF)存檔於2022-03-19).
- ^ 2.0 2.1 2.2 2.3 2.4 2.5 2.6 Lunde, Ken Roger. CJKV Information Processing 第二版. O'Reilly. 2008年12月 [2022-05-06]. ISBN 978-0-596-51447-1. (原始內容存檔於2011-08-29).
- ^ Steele, Shawn. cp936 to Unicode table. Microsoft, Unicode Consortium. 2000 [2022-05-05]. (原始內容存檔於2022-03-18).
- ^ Lunde, Ken. Appendix F: GB/T 12345 (PDF). CJKV Information Processing (O'Reilly). 1998 [2022-05-05]. ISBN 9781565922242. (原始內容 (PDF)存檔於2019-02-02).
- ^ 5.0 5.1 中華人民共和國國家標準化管理委員會. GB/T 6345.1-2010 信息技术 汉字编码字符集(基本集) 32点阵字型 第1部分宋体. 中國. 2011-01-10 (中文(中國大陸)).
- ^ 6.0 6.1 6.2 6.3 6.4 6.5 6.6 Standardization Administration of China (SAC). GB 18030-2005: Information Technology—Chinese coded character set. 2005-11-18.
- ^ 7.0 7.1 7.2 7.3 7.4 7.5 Mac OS 简体中文版本对 Unicode 3.0 后的映射. Apple, Inc. [2022-05-05]. (原始內容存檔於2021-02-05).
- ^ 8.0 8.1 Microsoft. CODEPAGE 936: PRC GBK (XGB) - ANSI, OEM. Unicode Consortium. [2022-05-05]. (原始內容存檔於2021-01-19).
- ^ 9.0 9.1 9.2 CCITT. Codes of the Chinese graphic character set for communication (PDF). ITSCJ/IPSJ. 1992-07-13 [2022-05-06]. (原始內容 (PDF)存檔於2022-03-10).
- ^ Viswanadha, Raghuram. Unicode to ISO-IR-165 table. International Components for Unicod-e. IBM. 2000-08-30. (備註:編號根據來源使用 7 位元或 ISO 2022:加上 0×80 生成EUC碼,或減去 0×20 生成區位碼)