GB2312区位码—国标码—机内码----机内码字库寻址–c语言编码对应
1-区别- 区位码:4位10进制数,例如1601,16代表区号,01代表位号。区号位号范围都是:01-94 (注意汉字的区号从16开始,如“啊”字1601是第一个汉字)
- 国标码:区位码 + 2020H (16进制)
- 机内码:(针对国标码的)计算机内部识别码 = 国标码 + 8080H
(因此:机内码 = 区位码 + A0A0H)
区位码:常用汉字范围 1601—8794,也就是从第16区的第一位,直到第87的最后一位
机内码:常用汉字编码范围 0xB0A1-----0xF7FE,
对应10进制**(176-161)~(247-264)**其中FE-A1=254-161+1 = 94(10进制)
C语言:
eg: unsigned char str[]=" 你好 ",注意一个汉字占据 2个字节,此处4字节
unsigned char 一个字节 0xFF的范围是0~255 ,其中0-127表示 ASCII英文字符。
C的编译器将 128-255 用于表示中文字符,但必须是连续的2个字节才能表示一个中文字符,因此第一个字节X=(128-255)+第二个字节Y=(128-255),两个一起表示。
其中,C代码里:连续2个unsigned char :
c
-------第一个汉字XY=(176.161)~ ~最后一个汉字XY=(247.264)
正好对应了上文机内码的汉字范围
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)