汉字字典序(上)
为了解决电脑汉字的种种问题,得到简便的输入法(输入码)和高效的存贮传输(内码),有必要考察——以前还没有论述过的——文字在字典中的排序。本文只是抛砖引玉,只是一个提纲,许多问题值得专家再深入展开。
字典和字典序
文字是人类用来交流和记录知识的信息符号。学习和使用任何文字,都需要字典。因为随着社会的发展,人类接触的事和物不断增加,作为它们的符号的文字数量很快达到不是一个人所能掌握的程度。这时,看别人写的文章,会碰到不认识的字需要查询,自己写文章也会遇到一时记不起来的字需要查考,于是就产生了专用的工具书——字典。
典,大册也。字典,搜集大量文字而成的备查工具书。大量文字按怎样的次序排列以便于查找,就成为首要的技术问题。拼音文字由少量字母组成,字母已有确定的前后次序,每个字(也就是词)的位置,先按第一字母的次序,再按第二个,这样顺次按各字母的比较排列前后,形成自然的字典序,很科学,检索很容易。汉字就没有这么简单,最早按部首排,有许多字部首不好定,常附很长的难字检索表,常常化很多时间,最终可能还是查不到。后来发明了许多别的方法,有的字典同时使用几种方法,附很多检索表,还是解决不了。
汉字难学,主要是由于查字典难,因为至今还没有科学的汉字排序方法,或者说没有自然的字典序。这也关系到电脑汉字的输入。无序的汉字,难以检索,也就难以输入电脑,更不利于后继的处理。比起字典检索法,近三十年发明的输入法,更是多如牛毛,但也没有一种能很好解决问题的。
字典的另一个重要作用是规范文字。因为大家都要使用,自然深入人心,这比下什么命令、发什么文件都有效。人们可以不顾文件、命令,但读书写文章总要用到字典。现在电脑时代使用“字库加编码”的方式,只能规范字形,字库里没有的字,你就不可能用。但这却逼出了不伦不类的网络字语和字母符号,应该说已影响了中文的纯洁性吧。
种种汉字序
中国最早的字典是公元121年的《说文解字》。它首创部首法,当时有540部,后代一直遵循此法,但部首不断简约,到《康熙字典》只有214部。因为部首是义符,不一定在一个汉字的左旁,常因不懂字源,定不准在哪一部,结果查不到。这些难查的字另按笔画数排表检索,《康熙字典》的“难字检查表”就有五千三百多字,占总字数的11%。刘达人发现以左旁为部首的占72%,以上旁为部首的占13%,合计85%以上,创“刘氏左上部首法”。查字不可能讲字源,应完全按字形来定部,单纯由偏旁定部首是正确的,但仍有许多独体字不知归属。
20世纪上叶,王云五只取汉字四角的形态,归纳为10种,分别用10个数码代表,形成一个4位数,字典中汉字按它的大小排列,这就是四角号码字典。如果有几个字同号,再附一个序号。可以说这是探求汉字自然序的第一个尝试,它真称得上第一个数字化方法,因为与现在所谓的数字化概念不同,姑称为自然数字化。现在说的数字化是指把汉字输入电脑,转换成内码。实际上电脑内码,与四角号码前的电报码一样,是人为的,不是某种自然序。正因为现在的内码无理,只能死记,绝大部分人记不住,才需要输入法,输入码被称为外码,倒是这外码才是尝试对汉字的自然数字化。上世纪80年代支秉彝的“见字识码”,与四角号码性质相似,实际上以后所有形码输入法,如陈爱文的表形码,王永民的五笔码,沈克成的表音码,以及其他难以计数的形码,都可对应一种汉字的自然排序,一种字典序。可惜都没有彻底解决重码问题,或者取码的规则太复杂、不自然,没有用到字典的排序上。另一种简单的首尾码,据说来源于林语堂的“上下形检字法”,后者不仅用于字典,还用在他设计的中文打字机上。
输入法中有笔画码,现代的字典大多附有笔画检字,但正文都没有按笔画排。王竹溪的《新部首大字典》,五万一千多字是按笔画排的,因为汉字笔画数多,直接用笔画组成的序列太长,所以笔画先结合为56个部首,再按这有序的部首排序。对此,后面再详细分析。
音韵学的升起,出了不少韵书,它不只供填词写诗用,实也是一种字典。从汉字百分之九十以上是形声字出发,李卓敏编纂了《李氏中文字典》,以一千左右的声旁为部首。现代的中文字典正文大都改用按拼音排序。会普通话的人,用拼音输入法写文章很惬意的,尤其使用词、句输入时,只要打声母。但用字典查生字时就不行了,因为不认识的字,当然不知道读音。所以这种字典必附其他检索表。
两种用途的字典
这里不是指普通字典和翻译用字典,而是按字典的两种不同实用性质分的,姑撰两个名词如下:
1、查生字典:看别人写的文章要用这种字典,碰见认不得的生字用它查。字典必须纯粹按字形特征排序,如四角号码字典,王竹溪的《新部首大字典》。如果是按拼音排序,不认识,自然也不知道它的拼音,就查不到了。一般部首字典,是按“义”定部首的,有些字的归属不知道,也不行。外文字典,如英汉字典,是按字母排序的,读英文或英译中时适用,反过来,要中译英或写英文时,就应该用汉英字典了。
2、检熟字典:自己写文章时用。我们当然只用自己熟识的字,只有这时,如果某字记不清如何写了,才适用拼音排序的字典。如果你读音不准,那就用部首字典为好。部首是义,但同部首内要按笔画数排,所以还没有纯粹按“义”排序的——外文里好象更没有这种字典——可按你要的义,容易找出所需要的字。这时肯定不能用四角号码字典,你记不清字形,怎么样定四角号码?
通常说,文字有音、形、义三个属性。实际上写文章是以“形”存贮和传播,读文章是以“义”获取其内容,这中间“音”倒是可有可无的。外国学者认为读和写都要通过语音这个中间环节,是不正确的,已被人证明。聋哑人也可以使用文字,就不会通过语音。不过口语是人类最早获得、最频繁使用的一种语言,文字和口语之间的联系和互译是经常存在的,学习文字就是要建立这种互译和联系,而音和义的联系(聋哑人应属例外)是在学文字之前就形成了的。正因为如此,才把音序字典归到检熟字典中,你脑子里的义,很容易转换成口语中的音,用音序字典自然容易找到你记不清的字了。字母文字的字典不一定是音序字典,因为像英文这种文字,字母序列和发音并不完全一致。但他们一定属于第一种“查生字典”,因为是完全按形排序的。汉字就还缺乏这种纯粹以形排的自然字典序,不只是编修字典的需要,它更关系到一般的汉字排序、检索和电脑输入法等,极需研究解决。它的解决,可能有利于当今电脑汉字的其他许多问题,特别是实现钱伟长说的最好的输入法是不要输入法。