GB2312-80编码演化

GB2312-80编码演化,第1张

知识点记录

GB2312区位码—国标码—机内码----机内码字库寻址–c语言编码对应

1-区别
  1. 区位码:4位10进制数,例如1601,16代表区号,01代表位号。区号位号范围都是:01-94 (注意汉字的区号从16开始,如“啊”字1601是第一个汉字)
  2. 国标码:区位码 + 2020H (16进制)
  3. 机内码:(针对国标码的)计算机内部识别码 = 国标码 + 8080H
    (因此:机内码 = 区位码 + A0A0H)
2-转换举例

3-汉字范围与对应C语言编码

区位码:常用汉字范围 1601—8794,也就是从第16区的第一位,直到第87的最后一位

机内码:常用汉字编码范围 0xB0A1-----0xF7FE,
对应10进制**(176-161)~(247-264)**其中FE-A1=254-161+1 = 94(10进制)

C语言:
eg: unsigned char str[]=" 你好 ",注意一个汉字占据 2个字节,此处4字节
unsigned char 一个字节 0xFF的范围是0~255 ,其中0-127表示 ASCII英文字符。

C的编译器将 128-255 用于表示中文字符,但必须是连续的2个字节才能表示一个中文字符,因此第一个字节X=(128-255)+第二个字节Y=(128-255),两个一起表示。

其中,C代码里:连续2个unsigned char :
c
-------第一个汉字XY=(176.161)~ ~最后一个汉字XY=(247.264)
正好对应了上文机内码的汉字范围

欢迎分享,转载请注明来源:内存溢出

原文地址: http://www.outofmemory.cn/langs/723037.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-26
下一篇 2022-04-26

发表评论

登录后才能评论

评论列表(0条)

保存