| 有没有更好的输入法效率评价方法? |
作者:谢振斌
汉字编码,从本质上说,就是一种映射。
1)映射规则、规律,决定了它的易学性。
2)映射规则的内涵,决定了它的科学性。
3)映射自身的指标(编码效率和重码律等),决定了应用效率。
以上三方面综合起来,决定一款编码设计的综合水平。
目前对编码的量化评价多数是从第三点的角度去评价的。也就是一般所说的一些指标:码长、码元、重码率(或键选率)、编码效率等。
而对于易学性和科学性,则由于比较难以量化,所以往往被忽视了。
其实认真研究下去,还是可以找到一定的量化评估办法的,并最终达到更科学的综合评价。
这里简单谈谈看法,欢迎批评。
1)易学性评估。所谓易学就是指死记硬背的东西少,规律性强,蕴涵科学性,习得后变难以忘记。它包括码元的记忆和规则的记忆。
就拿五笔来说,需要记忆的内容有:
a)汉字拆分规则。由于很多无理拆分违背汉字的科学性,导致记忆困难。比如五笔把“衤礻”这样的基本部首都拆开了。
b)部件和码元的映射。由于一个码元对应很多部件,并且没有简单的规律,唯有发明者自编的一首顺口溜算是辅助记忆。码元映射可以说 几乎没有规律可言。
c)末笔交叉编码。这个编码由末笔和构形两个信息交叉组成,对于初学者不可能简单记住,唯有努力训练,熟练后形成条件反射,才可以迅速应用。类似的做法还有一些采用双笔画组合的映射也是如此,表面看起来是有规律,但是实际上记忆量是很大的。
2)科学性评估。除了上述所说的规则必须简单合理以外,还有需要衡量的是映射的科学性。由于目前的编码为了追求低重码率,详尽办法来离散重码,而不是根据汉字的内在本质去编码,最终导致影响编码的科学性。具体体现在上面易学性评估里提到的几个环节里。比如拆分、分类、映射、码元选择等几方面的科学性。
3)编码自身的指标。这个部分容易量化计算。我本人认为,比较重要的指标有:
a)实用码长(bit):就是基于大众实用文本用字频度计算出的动态码长,换算为比特,避免码元数量干扰。
b)实用键选率(%):
就是基于大众实用文本用字频度计算出的动态键选率。
c)综合码长(bit):
结合各个领域、时域的语料文本,并加权平均后的动态码长。
d)实用键选率(%):
与上面相应的键选率。
键选率实际上是体现无理映射的成分。比如一个编码非常简单有理,但是其中10%的字需要使用无理序号区分才可以,那么加上这些无理序号,编码便可以说是“无重码”编码了,但实际上这10%的按键是无规则可言,属于无理编码,他们要么需要死记、要么需要看屏幕选择。
其他还有一些指标,则相对次要一些,但可以作为辅助参考。如编码效率、码元利用率、重码率、静态指标等。
还有,上述分析没有提到词语编码。其实某种意义上说,词语和单字完全可以统一对待,他们都是编码对象,并不需要刻意区分字和词。在我看来词语、单字、部件都是相关的编码对象,完全可以统一起来。
我自己一直在研制的汉字全息编码,就是从以上几个方面考虑的一种科学编码,主要特点有:
1)是有序化映射。目前几乎所有的编码都是一种无理hash映射。
2)规则简单、统一。符合汉字自身的科学性。
3)可以做到见字识码,还可以做到见码识字。当然一般编码只是作为一种录入手段,并不需要有如此高度的要求,但我的编码希望能够作为汉字的线性表示,用于编纂字典等领域,甚至作为辅助文字在某种场合得以应用。
4)采用26字母作为码元。此目的主要是为了编码的可视化和可读性以及便于应用。
5)全息码派生出的“简易码”,几乎不需要任何记忆,就可以使用。其部件码,只记“大码”即可,不必记忆“小码”。而这26个大码几乎是不用学习便可以自然记住。
6)在技术上,做了大量的优化。并合并了拼音、笔画等输入法。
除了26码元的编码,也设计了一款10码元的编码,专门用于手机等小型终端。特点就是不需要任何学习,学习难度和笔画输入法一样,但是速度却大为提高。

