Get Even More Visitors To Your Blog, Upgrade To A Business Listing >>

常见字符编码类型 汇总比较表

作者: feng


字符集(编码标准)等同国际标准编码方式实现方式备注
ASCII国际标准ISO/IEC 646


EASCIIISO/IEC 8859-n

ASCII码由7位扩充为8位而成。EASCII的内码是由0到255共有256个字符组成。EASCII码比ASCII码扩充出来的符号包括表格符号、计算符号、希腊字母和特殊的拉丁符号。
ISO/ICE 8859-n


每个字集定义最多96个字母或符号,在0xA0-0xFF根据不同字符集放入不同的字符。
ISO-8859-n(与上面那个不同)


ISO-8859-n(在ISO与8859之间加上一连字号)则是由IANA根据ISO/IEC 8859-n所定义的编码表。它除了ISO/IEC 8859-n的字符外,还包括ASCII(0x20-0x7E)字符及65个控制字符(0x00-0x1F及0x7E-0x9F)。
Unicode
UCS-2,使用16位的编码空间
UCS-4,占用4字节编码空间
UTF-7
UTF-8
UTF-16
UTF-16 LE
UTF-16 BE
UTF-32
任何文字在Unicode中都对应一个值,这个值称为代码点(code point)。代码点的值通常写成 U+ABCD 的格式。
而文字和代码点之间的对应关系就是UCS-2(Universal Character Set coded in 2 octets)。UCS-4,即用四个字节表示代码点。
它的范围为 U+00000000~U+7FFFFFFF,其中 U+00000000~U+0000FFFF和UCS-2是一样的。
UCS-2和UCS-4只规定了代码点和文字之间的对应关系,并没有规定代码点在计算机中如何存储。
规定存储方式的称为UTF(Unicode Transformation Format),其中应用较多的就是UTF-16和UTF-8了。
通用字符集(Universal Character Set,简称 UCS)
ISO/IEC 10646
从Unicode 2.0开始,Unicode采用了与ISO 10646-1相同的字库和字码;ISO也承诺,ISO 10646将不会替超出U+10FFFF的UCS-4编码赋值,以使得两者保持一致。

GB2312
GB?2312字符使用两个字节来表示。“第一位字节”使用0xA1-0xF7,“第二位字节”使用0xA1-0xFEEUC-CNEUC
GBK
GBK是双字节编码,每个字符用两个字节表示。
GBK 同时也向下兼容GB2312 编码
GB18030 双字节字符的码位空间就是0x8140~0xFE7E和0x8180~0xFEFE,双字节字符的码位数目是7938+16002=23940。 0x8140~0xFE7E和0x8180~0xFEFE也是GBK的全部码位空间。GBK在这23940个码位中定义了21886个字符。
GB 13000



GB 18030
每个字可以由1个、2个或4个字节组成
单字节,其值从0到0x7F。
双字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x40到0xFE(不包括0x7F)。
四字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x30到0x39,第三个字节从0x81到0xFE,第四个字节从0x30到0x39。
Unicode转换格式(Unicode Translation Format,简称为 UTF)


This post first appeared on 水月两忘轩, please read the originial post: here

Share the post

常见字符编码类型 汇总比较表

×

Subscribe to 水月两忘轩

Get updates delivered right to your inbox!

Thank you for your subscription

×