Charset
ASCII (American Standard Code for Information Interchange,美国信息交换标准代码)。
7 bit 来表示一个字符,共计可以表示128中字符。
ISO-8859-1
8 bit 来表示一个字符,即用一个字节(byte)(8bit)来表示一个字符,共计可以表示256个字符。
gb2312
两个字节表示一个汉字。
gbk
gb18030
big5
unicode,采用两个字节来表示一个字符。
UTF,Unicode Translation Format
unicode是一种编码方式,而UTF则是一种存储方式;UTF-8是Unicode的实现方式之一。
UTF-16LE(little endian),UTF16-BE(big endian)
Zero Width No-Break Space,0xFEFF(BE),0XFFFE(LE)
UTF-8,变长字节表示形式
一般来说,UTF-8会通过3个字节来表示一个中文。
BOM(Byte Order Mark),