EUC

EUC全名為Extended Unix Code，是一個使用8位編碼來表示字符的方法。

EUC最初是針對Unix系統，由一些Unix公司所開發，於1991年標準化。EUC基於ISO/IEC 2022的7位編碼標準，因此單字節的編碼空間為94，雙字節的編碼空間（區位碼）為94x94。把每個區位加上0xA0來表示，以便符合ISO 2022。它主要用於表示及儲存漢語文字、日語文字及朝鮮文字。

EUC定義了4個單獨的碼集（code set）。碼集0總是對應於7位的ASCII（或其它的各國定義的ISO 646），包括了ISO 2022定義的C0與G0空間的值。碼集1, 2, 3表示G1空間的值。其中，碼集1表示一些未經修飾（unadorned）的字符。碼集2的字符編碼以0x8E（屬於C1控制字符，或稱SS2）為第一字節。碼集3的字符編碼以0x8F（另一個屬於C1的控制字符，或稱SS3）為第一字節。碼集0總是編碼為單字節；碼集2、3總是編碼為至少2個字節；碼集1編碼為1-3個字節。

EUC-CN[編輯]

EUC-CN是GB 2312最常用的表示方法。瀏覽器編碼表上的「GB2312」，通常都是指「EUC-CN」表示法。

ASCII字符，範圍為0x21-0x7E，直接用單字節表示。這是碼集0.

GB 2312字元使用兩個字節來表示。這是碼集1.

「第一位字節」使用0xA1-0xFE

「第二位字節」使用0xA1-0xFE

GB2312沒有使用碼集2、碼集3部分。

舉例來說，「啊」字是GB 2312之中的第一個漢字，它的區位碼是1601。

在EUC-CN之中，它把0xA0+16=0xB0,0xA0+1=0xA1，得出0xB0A1。

EUC-JP[編輯]

EUC-JP用來儲存日本 JIS X 0208（舊稱JIS C 6226）及JIS X 0212字集的字符，主要影響了類Unix作業系統的日文表示與處理。但是，日文Windows作業系統較多使用ISO-2022-JP或Shift JIS的方法來表示。

ASCII字符，範圍為0x21-0x7E，直接用單字節表示。這是碼集0.

半角片假名使用兩個字節來表示。這是碼集2

「第一位字節」使用0x8E

「第二位字節」使用0xA1-0xDF

JIS X 0208字元使用兩個字節來表示。這是碼集1.

「第一位字節」使用0xA1-0xFE

「第二位字節」使用0xA1-0xFE

JIS X 0212字元使用三個字節來表示。這是碼集3

「第一位字節」使用0x8F

「第二位字節」使用0xA1-0xFE

「第三位字節」使用0xA1-0xFE

EUC-JISX0213[編輯]

EUC-JISX0213是一個制定中的EUC規格，用來表示JIS X 0213字集的字符。

半角片假名使用兩個字節來表示。

「第一位字節」使用0x8E

「第二位字節」使用0xA1-0xDF

JIS X 0213第一字面字元使用兩個字節來表示。

「第一位字節」使用0xA1-0xFE

「第二位字節」使用0xA1-0xFE

JIS X 0213第二字面字元使用三個字節來表示。

「第一位字節」使用0x8F

「第二位字節」使用0xA1-0xFE

「第三位字節」使用0xA1-0xFE

EUC-KR[編輯]

EUC-KR用來儲存韓國 KS X 1001字集（舊稱KS C 5601）的字符。此規格由KS X 2901（舊稱KS C 5861）定義。

KS X 1001字元使用兩個字節來表示。

「高位字節」使用0xA1-0xFE

「低位字節」使用0xA1-0xFE

EUC-TW[編輯]

EUC-TW為台灣使用的漢字編碼方法之一，以CNS 11643字表為基礎；但是台灣普遍使用大五碼，EUC-TW甚少使用。

CNS 11643第一字面的字元使用兩個字節來表示。

「第一位字節」使用0xA1-0xFE

「第二位字節」使用0xA1-0xFE

CNS 11643其他字面的字元使用四個字節來表示。

「第一位字節」使用0x8E

「第二位字節」使用0xA1-0xB0（0xA1-0xA7分別代表第1至第7個字面，其餘未定義）

「第三位字節」使用0xA1-0xFE

「第四位字節」使用0xA1-0xFE

（CNS 11643第一字面可選擇使用兩個字節或四個字節來表示）

參看[編輯]

參考文獻[編輯]

小林劍，（1999年）. CJKV Information Processing. First Edition. O'Reilly and Associates, Inc. ISBN 1-56592-224-7；中文版，鄭褚璋譯，（2002年）中日韓越資訊處理 第一版，台北市，美商歐萊禮股份有限公司。 ISBN 986-7794-03-6