汉字的Unicode和GBK内码
字符在计算机内以编码的形式存储。所谓编码,是以固定的顺序排列字符,并以此作为记录、存贮、传递、交换的统一内部特征,这个字符排列顺序被称为“编码”。最初计算机只能处理英文,英文、数字和标点符号采用的是美国的国家标准ASCII,码长为1个字节,ASCII编码进一步成为世界性的编码标准。英文、数字和标点符号可以直接通过计算机键盘输入,并直接转换为ASCII编码。计算机中使用的汉字有两类编码,一类叫外码,用来输入汉字,如五笔字型码、郑码、五笔画、拼音码、双拼等。由于人们不断寻求更佳的汉字输入效果,因此外码也就层出不穷。不同的外码规则也不同,但计算机内部存储汉字时,将其输入码转换成一种统一的编码,并以此作为记录、存贮、传递、交换的统一内部特征,这就是汉字内码。由于历史、地区原因,有多种汉字内码。早期中国大陆使用GB2312编码,码长为2个字节。共收录6763个简体汉字、682个符号,其中汉字部分:一级字3755,以拼音排序,二级字3008,以偏旁排序。同时,在台湾地区、香港地区等使用BIG5繁体汉字的编码标准,包括440个符号,一级汉字5401个、二级汉字7652个,共计13060个汉字。现在,汉字内码还包括ISO10646、Unicode、GB13000.1、GBK、GB180130-2000等,其中ISO10646、GBK、GB18030-2000和Unicode内码是国际上统一的汉字内码。

