一个字节=8位
“字节”是一个8位的物理存贮单元,而“字符”则是一个文化相关的符号。
ASCII码是美国信息交换标准编码,是世界上最通用的计算机符号编码。ASCII码用7个二进制位共编码128个字符。
在ASCII编码中,一个英文字母或其他字符占用一个字节,一个中文汉字在ASCII码的兼容方案中占用两个字节。
统一码,Universal Multiple-OctetCoded Character Set,简称UCS,俗称unicode,万国码。
世界上所有的语言包含的符号,都在unicode里面有唯一的编码。Uicode采用两个字节的编码方式,把世界上所有的语言的文字字符都容纳了进来。
在Unicode的编码方案中,一个英文字母或字符占用两个字节的空间,同样一个中文字符包括繁体字,也是占用两个字节的空间。
互联网的普及,强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种unicode的实现方式。其他实现方式还包括UTF-16和UTF-32,不过在互联网上基本不用。重复一遍,这里的关系是,UTF-8是Unicode的实现方式之一。
UTF-8编码使用1~4个字节对所有的字符进行编码,对于ASCIl码的那些字符采用一个字节,从而保证与ASCIl的完全兼容。
对于拉丁文、希伯来文等字母采用2个字节进行编码;对于中日韩、东南亚等文字,采用3个字节进行编码。
UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。
UTF-8的编码规则很简单,只有二条:
1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。
2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。
本文发布于:2024-02-01 01:28:20,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170672210532847.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |