8位编码EUC，全名Extended Unix Code

发布时间 2014-12-31

EUC全名为Extended Unix Code，是一个使用8位编码来表示字符的方法。

EUC最初是针对Unix系统，由一些Unix公司所开发，于1991年标准化。EUC基于ISO/IEC 2022的7位编码标准，因此单字节的编码空间为94，双字节的编码空间（区位码）为94x94。把每个区位加上0xA0来表示，以便符合ISO 2022。它主要用于表示及储存汉语文字、日语文字及朝鲜文字。

EUC定义了4个单独的码集（code set）。码集0总是对应于7位的ASCII（或其它的各国定义的ISO 646），包括了ISO 2022定义的C0与G0空间的值。码集1, 2, 3表示G1空间的值。其中，码集1表示一些未经修饰（unadorned）的字符。码集2的字符编码以0x8E（属于C1控制字符，或称SS2）为第一字节。码集3的字符编码以0x8F（另一个属于C1的控制字符，或称SS3）为第一字节。码集0总是编码为单字节；码集2、3总是编码为至少2个字节；码集1编码为1-3个字节。

EUC-CN

EUC-CN是GB 2312最常用的表示方法。浏览器编码表上的“GB2312”，通常都是指“EUC-CN”表示法。

ASCII字符，范围为0x21-0x7E，直接用单字节表示。这是码集0.

GB 2312字符使用两个字节来表示。这是码集1.

“第一位字节”使用0xA1-0xF7
“第二位字节”使用0xA1-0xFE

GB2312没有使用码集2、码集3部分。

举例来说，“啊”字是GB 2312之中的第一个汉字，它的区位码是1601。

在EUC-CN之中，它把0xA0+16=0xB0,0xA0+1=0xA1，得出0xB0A1。

EUC-JP

EUC-JP用来储存日本JIS X 0208（旧称JIS C 6226）及JIS X 0212字集的字符，主要影响了类Unix操作系统的日文表示与处理。但是，日文Windows操作系统较多使用ISO-2022-JP或Shift JIS的方法来表示。

ASCII字符，范围为0x21-0x7E，直接用单字节表示。这是码集0.

半角片假名使用两个字节来表示。这是码集2

“第一位字节”使用0x8E
“第二位字节”使用0xA1-0xDF

JIS X 0208字符使用两个字节来表示。这是码集1.

“第一位字节”使用0xA1-0xFE
“第二位字节”使用0xA1-0xFE

JIS X 0212字符使用三个字节来表示。这是码集3

“第一位字节”使用0x8F
“第二位字节”使用0xA1-0xFE
“第三位字节”使用0xA1-0xFE

EUC-JISX0213

EUC-JISX0213是一个制定中的EUC规格，用来表示JIS X 0213字集的字符。

半角片假名使用两个字节来表示。

“第一位字节”使用0x8E
“第二位字节”使用0xA1-0xDF

JIS X 0213第一字面字符使用两个字节来表示。

“第一位字节”使用0xA1-0xFE
“第二位字节”使用0xA1-0xFE

JIS X 0213第二字面字符使用三个字节来表示。

“第一位字节”使用0x8F
“第二位字节”使用0xA1-0xFE
“第三位字节”使用0xA1-0xFE

EUC-KR

EUC-KR用来储存韩国KS X 1001字集（旧称KS C 5601）的字符。此规格由KS X 2901（旧称KS C 5861）定义。

KS X 1001字符使用两个字节来表示。

“高位字节”使用0xA1-0xFE
“低位字节”使用0xA1-0xFE

EUC-TW

EUC-TW为台湾使用的汉字编码方法之一，以CNS 11643字表为基础；但是台湾普遍使用大五码，EUC-TW甚少使用。

CNS 11643第一字面的字符使用两个字节来表示。

“第一位字节”使用0xA1-0xFE
“第二位字节”使用0xA1-0xFE

CNS 11643其他字面的字符使用四个字节来表示。

“第一位字节”使用0x8E
“第二位字节”使用0xA1-0xB0（0xA1-0xA7分别代表第1至第7个字面，其余未定义）
“第三位字节”使用0xA1-0xFE
“第四位字节”使用0xA1-0xFE

（CNS 11643第一字面可选择使用两个字节或四个字节来表示）

<< 字符集编码标识符，数字表示字符编码>> ISO/IEC 2022 七位或八位编码