Charset

编解码

Charset

ASCII (American Standard Code for Information Interchange,美国信息交换标准代码)。

7 bit 来表示一个字符,共计可以表示128中字符。

ISO-8859-1

8 bit 来表示一个字符,即用一个字节(byte)(8bit)来表示一个字符,共计可以表示256个字符。

gb2312

两个字节表示一个汉字。

gbk

gb18030

big5

unicode,采用两个字节来表示一个字符。

UTF,Unicode Translation Format

unicode是一种编码方式,而UTF则是一种存储方式;UTF-8是Unicode的实现方式之一。

UTF-16LE(little endian),UTF16-BE(big endian)

Zero Width No-Break Space,0xFEFF(BE),0XFFFE(LE)

UTF-8,变长字节表示形式

一般来说,UTF-8会通过3个字节来表示一个中文。

BOM(Byte Order Mark),