ISO 10646内码
为容纳全世界各种语言的字符,ISO于1984年发起制定新的国际字符集编码标准。新标准由工作小组ISO/IEC JTC1/SC2/WG2负责拟定,标准最后定名为通用字符集“Universal Multiple-Octet Coded Character Set”,简称为UCS,其编号则定为ISO 10646。UCS 是所有其他字符集标准的一个超集,它确保与其他字符集是双向兼容的,也就是说,如果将任何文本字符串翻译为UCS格式,然后再翻译回原编码,将不会丢失任何信息。UCS包含了用于表达所有已知语言的字符,不仅包括拉丁语、希腊语、斯拉夫语等的描述,还包括中文, 日文、韩文等象形文字,以及平假名、片假名、孟加拉语、泰国语、汉语拼音等其他多种多样的语言文字,还包括大量的图形,印刷用的 数学或科学用的符号。以及许多其他字处理和出版系统提供的字符。
ISO10646字符集的正规形式为32位,即4个字节,记为USC-4 。4个字节分别代表编码结构中的组(group)、面(plane)、列(row)和格(cell)。WG2规定b32必需为0,且每个平面的最后两个编码位置,即FFFE~和FFFF,保留不用。所以,ISO10646共有128*256=32768个面,每个面有256*256-2=65534个编码位置,共计2,147,418,112个编码位置。
ISO10646中第0组第0面称为基本多语言文字面,即BMP(BMP,Basic Multilingual Plane,16bit)。若使用BMP字符码时,可以省略组八位和面八位,因而将字符码由32位缩短为16位,称为ISO10646字符码的基本面形式,简称为UCS-2。1993年国际标准化组织发布了ISO/IEC 10646-1《信息技术通用多八位编码字符集第一部分体系结构与基本多文种平面》。我国等同采用此标准制定了GB13000.1,该标准共收录了中、日、韩20902个汉字。ISO10646的编码空间足以容纳古今人类使用过的所有文字和符号。而且,目前真正被使用的文字或符号,绝大多数都已经编入BMP,其使用频率可以超过99%。WG2依语言特性把各种文字区分为表意文字和非表意文字两类。WG2截至目前为止所收集、整理的非表意文字和符号部分,扣除已编入BMP者,其余全部编入第1字面。而表意文字部分扣除已编入BMP者,其余全部编入第二字面。ISO10646所有字面中,目前仅有第0、第1和第2字面真正收容编码字符。

