在微型机中,西文字符的编码采用国际通用的ASCII码(美国信息交换标准代码),每个ASCII码以1个字节(Byte)储存,有7位码和8位码两种版本,国际通用的7位码用7位二进制数表示一个字符的编码,其编码范围是00000001111111,共有27=128个字符。
计算机内部使用一个字节存放一个7位ASCII码,b0~b6表示ASCII码值,最高位b7置0。ASCII码表中有94个可打印字符(21H~7EH),包括常用的字母、数字、标点符号等,另外还有32个控制字符(00H~20H和7FH)。
(1)汉字国标码
国标码字符集共收录了7445个字符,其中包括6763个常用汉字和682个非汉字字符,常用汉字中包括一级常用字3755个,二级次常用字3008个。
国标码的编码范围是2121H~7E7EH。
将7445个汉字字符的国标码放置在94行×94列的阵列中,表中每一行称为一个汉字的区,用区号表示,范围是1~94;每一列称为一个汉字的位,用位号表示,范围是1~94。区号和位号组合起来就构成了汉字的区位码,高两位表示区号,低两位表示位号。
(2)汉字内码
将国标码中的每个字节在最高位改设为1,就形成了在计算机内部用来进行汉字的存储、运算的编码叫机内码(汉字内码,或内码)。
国标码和汉字内码的转换关系如下:汉字内码=国标码+8080H
区位码和国标码之间转换方法是:将汉字的十进制区号和位号分别转换成十六进制,然后分别加上20H,就成为该字的国标码。
(3)汉字外码
国标码或区位码都不利于汉字的输入,为方便汉字的输入而制定的汉字编码,称为汉字输入码,又称为外码。常见的输入法有以下几类:
按汉字的排列顺序形成的编码
按汉字的读音形成的编码(音码)
按汉字的字形形成的编码(形码)
按汉字的音、形结合形成的编码(音形码)
(4)汉字字形码
为了将汉字在显示器或打印机上输出,把汉字按图形符号设计成点阵图,就得到了相应的点阵代码(字形码)。
全部汉字字码的集合叫汉字字库。显示一个汉字一般采用16×16点阵或24×24点阵或48×48点阵。已知汉字点阵的大小,可以计算出存储一个汉字所需占用的字节空间,也即:字节数=点阵行数×点阵列数/8。