今天看到了一个没头没尾的问题
一个编码为 GBK 的字符串 S,要将其转成 UTF-8 编码的字符串,应如何操作?
为啥说没头没尾呢,大概并没有弄明白编码和编码格式zhe’laing’zhong 东西的定义
编码: unicode就是一种“编码”,就是一个编号(数字)到字符的一种映射关系,可以理解成一个很大的对应表格,里面一个编号对应一个字符,
我们内存存储啥东西呢,存储的是这个编号
编码格式:采用某种标准来序列化前面提到的那个编号,这样可能不好理解,比如说,
GBK标准:他只覆盖了中文------unicode中的一小部分,所以它事先算好了只要2个字节(2的16次方)就能涵盖到绝大多数常用中文(2个字节能表示6w多种字符),所以它存储一个字符的时候,存的就是0——216 的数字
UTF-8:考虑了很多种不同国家的字符,涵盖整个unicode码表,所以其存储一个字符的编码(就是编号)的时候,使用的字节长度也从1字节到4字节不等;
那么啥叫作一个编码为 GBK 的字符串 S,要将其转成 UTF-8 编码的字符串,应如何操作?
我理解大概是,本来二进制数据是utf-8的,你用gbk来解码它,得到的字符串是乱码,现在想要还原回去。
本来二进制数据是utf-8的,如果我们4字节4字节的读取,那么字符是正确的,但是我们2字节2字节的读,就得到了一堆乱码。我们先用GBK 对乱码进行编码,在内存里面存了一串2字节数字,在用utf-8解码,4字节4字节的去读,就能还原了。
那其实就再走一遍流程,编码(用gbk)、解码(用utf-8)回去,就能得到正确的字符串
本文发布于:2024-01-28 16:11:22,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/17064294888632.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |