字元編碼

字元編碼（英語：Character encoding）、字碼、字集碼是把字元集中的字元為指定集合中某一對象（例如：位元模式、自然數序列、八位元或者電脈衝），以便文字在電腦中儲存和通過通訊網絡的傳遞。

純就字面解釋，這些術語是有不同的概念，但在許多的中文語境，這些術語會混用，有相同的概念。字元集，是指「字元的集合」，如中文字元集、英文字元集，不牽涉到編碼。字元編碼、字集碼、字碼，則是「對於某個字元集，為其字元編碼」，根據語義，有時指單一字元的編碼，有時是指全部字元的編碼。

在計算機支援語言、文字的過程中，要支援某個文字，必然要搜集所使用的字元，為其編碼，因此，初期並未區分字元集和字元編碼的不同。譬如，大五碼、國標碼、ASCII既指字元集，又指針對此字元集的編碼方式。在統一碼之後，則細分字元集和編碼形式的不同。同一個字元集，可以有不同的編碼形式，如UTF-8、UTF-16。

常見的例子包括將拉丁字母表編碼成摩斯電碼和ASCII。其中，ASCII將字母、數字和其它符號編號，並用7位元的二進制來表示這個整數。通常會額外使用一個擴充的位元，以便於以1個位元組的方式儲存。

在電腦技術發展的早期，如ASCII（1963年）和EBCDIC（1964年）這樣的字元集逐漸成為標準。但這些字元集的局限很快就變得明顯，於是人們開發了許多方法來擴充它們。對於支援包括東亞CJK字元家族在內的寫作系統的要求能支援更大量的字元，並且需要一種系統而不是臨時的方法實現這些字元的編碼。

有時，為強調其所使用的方式而使用其他術語，譬如：為說明「電腦系統『內部』處理文字資料所使用的字元編碼」時，會使用內碼。為「不同電腦系統之間，為了『交換』資料所採用的字元編碼」時，會使用交換碼。

簡單字元集

按照慣例，人們認為字元集和字元編碼是同義詞，因為使用同樣的標準來定義提供什麼字元並且這些字元如何編碼到一系列的代碼單元（通常一個字元一個單元）。由於歷史的原因，MIME和使用這種編碼的系統使用術語字元集來表示用於將一組字元編碼成一系列八位位元組數據的整個系統。

現代編碼模型

由統一碼和通用字元集所構成的現代字元編碼模型則沒有跟從簡單字元集的觀點。它們將字元編碼的概念分為：有哪些字元、它們的編號、這些編號如何編碼成一系列的「碼元」（有限大小的數字）以及最後這些單元如何組成八位位元組流。區分這些概念的核心思想是建立一個能夠用不同方法來編碼的一個通用字元集。為了正確地表示這個模型需要更多比「字元集」和「字元編碼」更為精確的術語表示。在Unicode Technical Report (UTR) #17中，現代編碼模型分為5個層次，所用的術語列在下面：

抽象字元表（Abstract character repertoire）是一個系統支援的所有抽象字元的集合。字元表可以是封閉的，即除非建立一個新的標準（ASCII和多數ISO/IEC 8859系列都是這樣的例子），否則不允許添加新的符號；字元表也可以是開放的，即允許添加新的符號（統一碼和一定程度上代碼頁是這方面的例子）。特定字元表中的字元反映了如何將書寫系統分解成線性資訊單元的決定。例如拉丁、希臘和斯拉夫字母表分為字母、數字、變音符號、標點和如空格這樣的一些少數特殊字元，它們都能按照一種簡單的線性序列排列（儘管對它們的處理需要另外的規則，如帶有變音符號的字母這樣的特定序列如何解釋——但這不屬於字元表的範疇）。為了方便起見，這樣的字元表可以包括預先編號的字母和變音符號的組合。其它的書寫系統，如阿拉伯語和希伯萊語，由於要適應雙向文字和在不同情形下按照不同方式交叉在一起的字形，就使用更為複雜的符號表表示。
編碼字元集（CCS:Coded Character Set）是將字元集 $C$ 中每個字元對映到1個坐標（整數值對：x, y）或者表示為1個非負整數 $N$ 。字元集及碼位對映稱為編碼字元集。例如，在一個給定的字元表中，表示大寫拉丁字母「A」的字元被賦予整數65、字元「B」是66，如此繼續下去。多個編碼字元集可以表示同樣的字元表，例如ISO-8859-1和IBM的頁碼037和頁碼500含蓋同樣的字元表但是將字元對映為不同的整數。由此產生了編碼空間（encoding space）的概念：簡單說就是包含所有字元的表的維度。可以用一對整數來描述，例如：GB 2312的漢字編碼空間是94 x 94。可以用一個整數來描述，例如：ISO-8859-1的編碼空間是256。也可以用字元的儲存單元尺寸來描述，例如：ISO-8859-1是一個8位元的編碼空間。編碼空間還可以用其子集來表述，如行、列、面（plane）等。編碼空間中的一個位置（position）稱為碼位（code point）。一個字元所佔用的碼位稱為碼位值（code point value）。1個編碼字元集就是把抽象字元對映為碼位值。
字元編碼表（CEF:Character Encoding Form），也稱為"storage format"，是將編碼字元集的非負整數值（即抽象的碼位）轉換成有限位元長度的整型值（稱為碼元code units）的序列。這對於定長編碼來說是個到自身的對映（null mapping），但對於變長編碼來說，該對映比較複雜，把一些碼位對映到一個碼元，把另外一些碼位對映到由多個碼元組成的序列。例如，使用16位元長的儲存單元儲存數字資訊，系統每個單元只能夠直接表示從0到65,535的數值，但是如果使用多個16位元單元就能夠表示更大的整數。這就是CEF的作用，它可以把Unicode從0到140萬的碼空間範圍的每個碼位對映到單個或多個在0到65,5356範圍內的碼值。最簡單的字元編碼表就是單純地選擇足夠大的單位，以保證編碼字元集中的所有數值能夠直接編碼（一個碼位對應一個碼值）。這對於能夠用使用八位元組來表示的編碼字元集（如多數傳統的非CJK的字元集編碼）是合理的，對於能夠使用十六位元來表示的編碼字元集（如早期版本的Unicode）來說也足夠合理。但是，隨着編碼字元集的大小增加（例如，現在的Unicode的字元集至少需要21位才能全部表示），這種直接表示法變得越來越沒有效率，並且很難讓現有電腦系統適應更大的碼值。因此，許多使用新近版本Unicode的系統，或者將Unicode碼位對應為可變長度的8位元位元組序列的UTF-8，或者將碼位對應為可變長度的16位元序列的UTF-16。
字元編碼方案（CES:Character Encoding Scheme），也稱作"serialization format"。將定長的整型值（即碼元）對映到8位元位元組序列，以便編碼後的數據的檔案儲存或網絡傳輸。在使用Unicode的場合，使用一個簡單的字元來指定位元組順序是大端序或者小端序（但對於UTF-8來說並不需要專門指明位元組序）。然而，有些複雜的字元編碼機制（如ISO/IEC 2022）使用控制字元跳脫序列在幾種編碼字元集或者用於減小每個單元所用位元組數的壓縮機制（如SCSU、BOCU和Punycode）之間切換。
傳輸編碼語法（transfer encoding syntax），用於處理上一層次的字元編碼方案提供的位元組序列。一般其功能包括兩種：一是把位元組序列的值對映到一套更受限制的值域內，以滿足傳輸環境的限制，例如Email傳輸時Base64或者quoted-printable，都是把8位元的位元組編碼為7位長的數據；另一是壓縮位元組序列的值，如LZW或者行程長度編碼等無損壓縮技術。

高層機制（higher level protocol）提供了額外資訊，用於選擇Unicode字元的特定變種，如XML屬性xml:lang

字元對映（character map）在Unicode中保持了其傳統意義：從字元序列到編碼後的位元組序列的對映，包括了上述的CCS, CEF, CES層次。

字元集、頁碼，與字元對映

術語字元編碼（character encoding），字元對映（character map），字元集（character set）或者頁碼，在歷史上往往是同義概念，即字元表（repertoire）中的字元如何編碼為碼元的流（stream of code units）–通常每個字元對應單個碼元。

碼元（Code Unit，也稱「代碼單元」）是指一個已編碼的文字中具有最短的位元組合的單元。對於UTF-8來說，碼元是8位元長；對於UTF-16來說，碼元是16位元長；對於UTF-32來說，碼元是32位元長^[1]。碼值（Code Value）是過時的用法。

頁碼通常意味着面向位元組的編碼，但強調是一套用於不能語言的編碼方案的集合.著名的如"Windows"頁碼系列，"IBM"/"DOS"頁碼系列.

IBM的字元數據表示體系（Character Data Representation Architecture - CDRA）與編碼字元集識別碼（coded character set identifiers - CCSIDs）常常把charset, character set, code page, or CHARMAP等類似意義的術語混用.

Unix或Linux不使用頁碼概念，它們用charmap，比locales具有更廣泛的含義.

與上文的編碼字元集（Coded Character Set - CCS）不同，字元編碼（character encoding）是從抽象字元到代碼字（code word）的對映. HTTP（與MIME）的用法中，字元集（character set）與字元編碼同義，但與CCS不是一個意思.

字元編碼（不全）

ASCII
EBCDIC

西歐標準

DOS字元集（又稱IBM頁碼）

Windows字元集

亞洲字元集

尤其是漢字編碼。

臺灣

日本

中國大陸及港澳

GB/T 2312
GB/T 12345
EUC
GBK（規定檔案為GB13000）
GB 18030
香港增補字符集

朝鮮半島

越南

越南資訊交換標準代碼

印度

印度文字資訊交換碼

統一碼

字元轉換工具

由於有很多種字元編碼方法被使用，從一種字元編碼轉換到另一種，需要一些工具。

跨平台：

網頁瀏覽器–大多數現代的網頁瀏覽器都具有此功能。一般是在選單"檢視"（View）/"字元編碼"（Character Encoding）
iconv –程式與編程API，用於字元編碼轉換
convert_encoding.py –基於Python的轉換工具.^[2]
decodeh.py –用於啟發性猜測編碼方案的演算法與模組.^[3]
國際統一碼部件 –一套C語言與Java語言的開源庫，由IBM提供，用於統一碼等多語言編碼的轉換、實現.
chardet – Mozilla的編碼自動檢測代碼的Python語言實現.
新版本的Unix命令File做字元編碼的檢測.（cygwin與mac都有此命令）

Linux:

recode – ^[4]
utrac – 將整個檔案內容從一種字元編碼轉換到另外一種^[5]
cstocs –
convmv –轉換檔名.^[6]
enca –分析編碼模式.^[7]

Microsoft Windows:

Encoding.Convert – .NET API^[8]
MultiByteToWideChar/WideCharToMultiByte – Windows API^[9]
cscvt –轉換工具^[10]
enca –分析編碼方法^[11]

參考文獻

^ Glossary of Unicode Terms. [2012-04-07]. （原始內容存檔於2015-12-26）.
^ Homepage of Michael Goerz – convert_encoding.py. [2012-03-23]. （原始內容存檔於2010-10-28）.
^ Decodeh – heuristically decode a string or text file. [2012-03-23]. （原始內容存檔於2008-01-08）.
^ Recode – GNU Project – Free Software Foundation (FSF). [2012-03-23]. （原始內容存檔於2021-02-10）.
^ Utrac Homepage. [2006-05-12]. （原始內容存檔於2021-01-25）.
^ Convmv – converts filenames from one encoding to another. [2012-03-23]. （原始內容存檔於2018-06-11）.
^ Extremely Naive Charset Analyser. [2012-03-23]. （原始內容存檔於2010-12-04）.
^ Microsoft .NET Framework Class Library – Encoding.Convert Method. [2012-03-23]. （原始內容存檔於2012-04-21）.
^ MultiByteToWideChar/WideCharToMultiByte – Convert from ANSI to Unicode & Unicode to ANSI. [2012-03-23]. （原始內容存檔於2015-02-12）.
^ Character Set Converter. [2012-03-23]. （原始內容存檔於2012-03-26）.
^ Extremely Naive Charset Analyser. [2012-03-23]. （原始內容存檔於2012-03-15）.

參閱

Category:字元編碼—關於通用字元編碼的文章
Category:字元集—關於特殊字元編碼的文章
亂碼—非對映字元集
頁碼
字形
位圖
像素
體素
中文軟件
中文系統

外部連結

Character sets registered by Internet Assigned Numbers Authority（頁面存檔備份，存於互聯網檔案館）
Unicode Technical Report #17: Character Encoding Model
SIL's freeware fonts, editors and documentation （頁面存檔備份，存於互聯網檔案館） See SIL
ICU Converter Explorer （頁面存檔備份，存於互聯網檔案館）
The Cyrillic Charset soup（頁面存檔備份，存於互聯網檔案館）
Early history of character set standardization
Character Sets And Code Pages At The Push Of A Button （頁面存檔備份，存於互聯網檔案館）
A complete introduction to Japanese character encodings
A tutorial on character code issues （頁面存檔備份，存於互聯網檔案館）
Online Char (ASCII), HEX, Binary, Base64, etc... Encoder/Decoder with MD2, MD4, MD5, SHA1+2, etc. hashing algorithms
Universal Cyrillic decoder （頁面存檔備份，存於互聯網檔案館）,一個用來幫助恢復由於錯誤字元編碼產生的不可讀的西里爾字母的線上程式（以及其它的一些程式）.
Introduction to i18n（頁面存檔備份，存於互聯網檔案館），請參閱Chapter 3 - Important Concepts for Character Coding Systems
漢字字元編碼查詢
精確解釋Unicode （頁面存檔備份，存於互聯網檔案館）

[1] Glossary of Unicode Terms. [2012-04-07]. （原始內容存檔於2015-12-26）.

[2] Homepage of Michael Goerz – convert_encoding.py. [2012-03-23]. （原始內容存檔於2010-10-28）.

[3] Decodeh – heuristically decode a string or text file. [2012-03-23]. （原始內容存檔於2008-01-08）.

[4] Recode – GNU Project – Free Software Foundation (FSF). [2012-03-23]. （原始內容存檔於2021-02-10）.

[5] Utrac Homepage. [2006-05-12]. （原始內容存檔於2021-01-25）.

[6] Convmv – converts filenames from one encoding to another. [2012-03-23]. （原始內容存檔於2018-06-11）.

[7] Extremely Naive Charset Analyser. [2012-03-23]. （原始內容存檔於2010-12-04）.

[8] Microsoft .NET Framework Class Library – Encoding.Convert Method. [2012-03-23]. （原始內容存檔於2012-04-21）.

[9] MultiByteToWideChar/WideCharToMultiByte – Convert from ANSI to Unicode & Unicode to ANSI. [2012-03-23]. （原始內容存檔於2015-02-12）.

[10] Character Set Converter. [2012-03-23]. （原始內容存檔於2012-03-26）.

[11] Extremely Naive Charset Analyser. [2012-03-23]. （原始內容存檔於2012-03-15）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

閱論編字元編碼
早期電信	電報電碼（英語：Telegraph code）庫克與惠斯通（英語：Cooke and Wheatstone telegraph）摩斯非拉丁字母（英語：Morse code for non-Latin alphabets）日文（英語：Wabun code）中文西里爾字母（英語：Russian Morse code）韓文（英語：SKATS）博多與莫瑞 Fieldata（英語：Fieldata） ASCII ISO/IEC 646 BCDIC（英語：BCD (character encoding)）電傳文訊（英語：Teletex）與電傳視像（英語：Videotex）／電視資訊 T.51/ISO/IEC 6937（英語：T.51/ISO/IEC 6937） ITU T.61（英語：ITU T.61） ITU T.101（英語：Videotex character set）世界系統電傳文訊（英語：World System Teletext）字元集（英語：Teletext character set）
ISO/IEC 8859	現行 -1（西歐語言） -2（中歐語言） -3（馬爾他文／世界文） -4（北歐語言） -5（西里爾字母） -6（阿拉伯文） -7（希臘文） -8（希伯來文） -9（土耳其文） -10（北日耳曼語支） -11（泰文） -13（波羅的語族） -14（凱爾特語族） -15（新西歐語言） -16（羅馬尼亞文）廢止 -12（梵文）提議 KOI-8西里爾字母（英語：ISO-IR-111）薩米文（英語：ISO-IR-197）改編威爾斯文（英語：ISO-IR-182）巴倫支西里爾字母（英語：ISO-IR-200）愛沙尼亞文（英語：Code page 922）烏克蘭西里爾字母（英語：Code page 1124）
書目	MARC-8（英語：MARC-8） ANSEL（英語：ANSEL）中文資訊交換碼 ISO 5426（英語：ISO 5426） ISO 5427（英語：ISO 5427） ISO 5428（英語：ISO 5428） ISO 6438 ISO 6862（英語：ISO 6862）
國家標準	ArmSCII BraSCII（英語：BraSCII）中文標準交換碼 DIN 66003（英語：DIN 66003） ELOT 927（英語：ELOT 927） GOST 10859（英語：GOST 10859） GB 2312 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212（英語：JIS X 0212） JIS X 0213（英語：JIS X 0213） KOI-7（英語：KOI-7） KPS 9566 KS X 1001 KS X 1002（英語：KS X 1002） LST 1564（英語：LST 1564） LST 1590-4（英語：LST 1590-4） PASCII Shift JIS SI 960（英語：SI 960） TIS-620（英語：Thai Industrial Standard 620-2533） TSCII VISCII（英語：VISCII） VSCII YUSCII（英語：YUSCII）
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367（英語：ISO/IEC 10367） EUC ISO-IR-165
macOS頁碼	亞美尼亞文（英語：Mac OS Armenian）阿拉伯文巴倫支西里爾字母（英語：Mac OS Barents Cyrillic）凱爾特語族（英語：Mac OS Celtic）中歐語言克羅地亞文（英語：Mac OS Croatian encoding）西里爾字母（英語：Mac OS Cyrillic encoding）梵文波斯文（英語：MacFarsi encoding）字體X（英語：Macintosh Font X encoding）蓋爾文（英語：Mac OS Gaelic）喬治亞文（英語：Mac OS Georgian）希臘文（英語：MacGreek encoding）古吉拉特文（英語：Mac OS Gujarati）古木基文（英語：Mac OS Gurmukhi）希伯來文（英語：Mac OS Hebrew）冰島文（英語：Mac OS Icelandic encoding）因紐特文（英語：Mac OS Inuit）鍵盤（英語：Mac OS Keyboard encoding）拉丁文（英語：Macintosh Latin encoding）馬爾他文／世界文（英語：Mac OS Maltese/Esperanto encoding）歐甘字母（英語：Mac OS Ogham）羅曼語族羅馬尼亞文（英語：Mac OS Romanian encoding）薩米文（英語：Mac OS Sámi）土耳其文（英語：Mac OS Turkish encoding）土耳其西里爾字母（英語：Mac OS Turkic Cyrillic）烏克蘭文（英語：Mac OS Ukrainian encoding） VT100（英語：VT100 encoding）
DOS代碼頁	437 668（英語：Code page 668） 708（英語：Code page 708） 720（英語：Code page 720） 737（英語：Code page 737） 770（英語：Code page 770） 773（英語：Code page 773） 775（英語：Code page 775） 776（英語：Code page 776） 777（英語：Code page 777） 778（英語：Code page 778） 850（英語：Code page 850） 851（英語：Code page 851） 852（英語：Code page 852） 853（英語：Code page 853） 855（英語：Code page 855） 856（英語：Code page 856） 857（英語：Code page 857） 858（英語：Code page 858） 859（英語：Code page 859） 860（英語：Code page 860） 861（英語：Code page 861） 862（英語：Code page 862） 863（英語：Code page 863） 864（英語：Code page 864） 865（英語：Code page 865） 866（英語：Code page 866） 867（英語：Code page 867） 868（英語：Code page 868） 869（英語：Code page 869） 897（英語：Code page 897） 899（英語：Code page 899） 903（英語：Code page 903） 904（英語：Code page 904） 932（英語：Code page 932 (IBM)） 936（英語：Code page 936 (IBM)） 942（英語：Code page 942） 949（英語：Code page 949 (IBM)） 950 951（英語：Code page 951） 1040（英語：Code page 1040） 1042（英語：Code page 1042） 1043（英語：Code page 1043） 1046（英語：Code page 1046） 1098（英語：Code page 1098） 1115（英語：Code page 1115） 1116（英語：Code page 1116） 1117（英語：Code page 1117） 1118（英語：Code page 1118） 1127（英語：Code page 1127） 3846（英語：Code page 3846） ABICOMP（英語：ABICOMP character set） CS Indic（英語：CS Indic character set） CSX Indic（英語：CSX Indic character set） CSX+ Indic（英語：CSX+ Indic character set） CWI-2（英語：CWI-2）伊朗系統（英語：Iran System encoding）卡梅尼茨（英語：Kamenický encoding）馬索維亞（英語：Mazovia encoding） MIK（英語：MIK (character set)）
IBM AIX代碼頁	895（英語：Code page 895） 896（英語：Code page 896） 912（英語：Code page 912） 915（英語：Code page 915） 921（英語：Code page 921） 922（英語：Code page 922） 1006（英語：Code page 1006） 1008（英語：Code page 1008） 1009（英語：Code page 1009） 1010（英語：Code page 1010） 1012（英語：Code page 1012） 1013（英語：Code page 1013） 1014（英語：Code page 1014） 1015（英語：Code page 1015） 1016（英語：Code page 1016） 1017（英語：Code page 1017） 1018（英語：Code page 1018） 1019（英語：Code page 1019） 1124（英語：Code page 1124） 1133（英語：Code page 1133）
Microsoft Windows代碼頁（英語：Windows code page）	CER-GS（英語：CER-GS） 932（英語：Code page 932 (Microsoft Windows)） 936 GBK 950 1169（英語：Code page 1169） Extended Latin-8（英語：Extended Latin-8） 1250（英語：Windows-1250） 1251（英語：Windows-1251） 1252 1253（英語：Windows-1253） 1254（英語：Windows-1254） 1255（英語：Windows-1255） 1256（英語：Windows-1256） 1257（英語：Windows-1257） 1258（英語：Windows-1258） 1270（英語：Windows-1270）西里爾字母+芬蘭文（英語：Windows Cyrillic + Finnish）西里爾字母+法文（英語：Windows Cyrillic + French）西里爾字母+德文（英語：Windows Cyrillic + German）希臘語變音符號（英語：Windows Polytonic Greek）
EBCDIC代碼頁	37（英語：Code page 37） EBCDIC中的日文（英語：Japanese language in EBCDIC） DKOI（英語：DKOI）
DEC終端機（VTx（英語：VT220））	MCS（英語：Multinational Character Set） NRCS（英語：National Replacement Character Set）加拿大法文（英語：Code page 1020）瑞士文（英語：Code page 1021）西班牙文（英語：Code page 1023）英國英文（英語：Code page 1101）荷蘭文（英語：Code page 1102）芬蘭文（英語：Code page 1103）法文（英語：Code page 1104）挪威文／丹麥文（英語：Code page 1105）瑞典文（英語：Code page 1106）挪威文／丹麥文（替代）（英語：Code page 1107） 8位元希臘文（英語：Code page 1287） 8位元土耳其文（英語：Code page 1288） SI 960（英語：SI 960）希伯來文（英語：DEC Hebrew）特殊圖形（英語：DEC Special Graphics）技術（英語：DEC Technical Character Set）
特定平臺	1057（英語：Code page 1057） Acorn（英語：RISC OS character set） Adobe標準（英語：PostScript Standard Encoding） Adobe Latin 1（英語：PostScript Latin 1 Encoding） Amstrad CPC（英語：Amstrad CPC character set） Apple II（英語：Apple II character set）雅達利資訊交換標準碼（英語：ATASCII）雅達利ST（英語：Atari ST character set） BICS（英語：Bitstream International Character Set）卡西歐計算機（英語：Casio calculator character sets） CDC（英語：CDC display code） Compucolor II（英語：Compucolor II character set） CP/M+（英語：Amstrad CP/M Plus character set） DEC RADIX 50（英語：DEC RADIX 50） DEC MCS（英語：Multinational Character Set）/NRCS（英語：National Replacement Character Set） DG國際（英語：DG International） Fieldata（英語：Fieldata） GEM（英語：GEM character set） GSM 03.38（英語：GSM 03.38） HP Roman（英語：HP Roman） HP FOCAL（英語：FOCAL character set） HP RPL（英語：RPL character set） SQUOZE（英語：SQUOZE） LICS（英語：Lotus International Character Set） LMBCS（英語：Lotus Multi-Byte Character Set） MSX（英語：MSX character set） NEC APC（英語：NEC APC character set） NeXT（英語：NeXT character set） PETSCII（英語：PETSCII） SEGA SC-3000（英語：Sega SC-3000 character set）夏普計算機（英語：Sharp pocket computer character sets）夏普MZ（英語：Sharp MZ character set）辛克萊QL（英語：Sinclair QL character set）符號電傳文訊（英語：Teletext character set）德州儀器計算機（英語：TI calculator character sets） TRS-80（英語：TRS-80 character set）文圖拉國際（英語：Ventura International） WISCII（英語：Wang International Standard Code for Information Interchange） XCCS（英語：Xerox Character Code Standard） ZX80（英語：ZX80 character set） ZX81（英語：ZX81 character set） ZX Spectrum（英語：ZX Spectrum character set）
Unicode及通用字元集	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC（英語：UTF-EBCDIC） GB 18030 BOCU-1 CESU-8 SCSU TACE16（英語：Tamil All Character Encoding） Unicode編碼比較（英語：Comparison of Unicode encodings）
TeX排版系統	科克（英語：Cork encoding） LY1（英語：LY1 encoding） OML（英語：OML encoding） OMS（英語：OMS encoding） OT1（英語：OT1 encoding）
其他代碼頁	ABICOMP（英語：ABICOMP character set） ASMO 449（英語：ASMO 449）大五碼 APL符號數碼編碼（英語：Digital encoding of APL symbols） ISO-IR-68（英語：ISO-IR-68） ARIB STD-B24 HZ（英語：HZ (character encoding)） IEC-P27-1（英語：IEC-P27-1） INIS 7位元（英語：INIS character set） INIS-8（英語：8位元） ISO-IR-169（英語：ISO-IR-169） ISO 2033（英語：ISO 2033） KOI -R -RU（英語：KOI8-RU） -U 今昔文字鏡 SEASCII（英語：Stanford Extended ASCII） Stanford/ITS（英語：Stanford/ITS character set） TRON（英語：TRON (encoding)）統合韓文代碼（英語：Unified Hangul Code）
控制字元	摩斯電碼專用代碼（英語：Prosigns for Morse code） C0與C1控制字元 ISO/IEC 6429 JIS X 0211（英語：JIS X 0211） Unicode控制字元空白字元
相關條目	CCSID（英語：CCSID） HTML字元編碼字元集探測中日韓統一表意文字硬件代碼頁（英語：Hardware code page）磁性墨水字元識別碼（英語：Magnetic ink character recognition）亂碼中文亂碼可變寬度編碼
字元集