前几天,《京华时报》上连续刊载了三个字典上没有的怪“字”。它们是什么意思呢?想要搞清楚,先一起来看看有关汉字的小秘密。
常有人说汉字是一种“象形文字”。其实,这种说法是错的,汉字是一种“语素——音节文字”。象形只是汉字众多造字方法中的一种。李大遂在统计了《汉字等级大纲》中列举2906个现代常用汉字后,指出其中的象形字只有不到7%。在非常用汉字中,象形字所占比例更远远小于这个数值。即使上推到最古老的甲骨文里面中,象形字所占比例也连一半到不了。
汉字的数量是随着历史发展而增加的。
从历代辞书中,我们可以大致看出汉字数量逐渐增长的趋势。李宗焜所编《甲骨文字编》中收录的已发现的甲骨文单字字头共有4378个。到了东汉,许慎所编《说文解字》的自叙称该书收了9353个不同的字。再到北宋的《广韵》,收字的数量已经爆炸到了26194个。而清人编著的《康熙字典》,收字量更是达到了47035个。
目前收字最多的辞书是现代学者编写的《中华字海》,其中收录的汉字字头数(包括日韩汉字)是85568个。这应当已经接近甚至超越了历史中存在过的汉字数量的上限。
这么多汉字,并非每一个都可以在你的电脑上显示出来。比如一般中文字体使用的GB2312标准简体中文字符集就只包括6763个字。这相对汉字的实际数量而言太少了,于是后来又出台了许多扩展包。
目前国际通用的“中日韩越统一表意文字编码系统”,共收录汉字、日韩越汉字、民族文字共计80388个。当前大部分的电脑、网页都能兼容这些文字。虽然从方便学术研究的角度看,这个字库还有着进一步完善的空间,但是对一般人来说,这个库已经大得惊人了。
虽然汉字一共有八万多个,但是大部分都是没什么人用的死字。裘锡圭认为,每个时期常用的汉字虽然不尽相同,但是总数都是四五千个。经陈明远统计,现代最常见的5200个汉字可以涵盖一般书刊内容的99.99%。别忙着高兴,即使把范围缩小到5200个字,也已经超过中国人的平均识字量了。
汉字变得越来越多,那一定是因为有人造字。皇帝就是一类特别爱好造字的人。皇帝爱造字,最常见的一个理由是方便避讳。
比如三国时期东吴的第三个皇帝孙休就曾经为他的四个儿子造了八个他自以为前无古人,所以不会让民间觉得避讳麻烦的字。其实,最会造字的皇帝是的大名鼎鼎的武媚娘。她执政时不仅为9个常见字制造了全新的字形,还强制要求推广另外的8个常用字的罕见的古老异体。经她这么一折腾“天”、“地”、“日”、“月”、“星”等一些常见字都变得面目全非了。
一个汉字有时会有不同写法,其中一种规范写法叫“规范汉字”,多出来的写法都叫错别字异体字。汉字系统中异体字的数量相当庞大。台湾省“教育部”所编《异体字字典》收录了正字29892个,收录的异体字却达76338个,平均其中的每一个汉字都有大约2.6个异体字,还总有学者批评它不全。越是常用字,人们脑洞开得越大,异体字也就越多。“回”这样常用的字,实际存在的异体写法超过三十种,孔乙己是说少了。
让我们回忆一下化学课的知识,回想一下化学专有名词有什么特点。氢、氦、锂、铍、硼;炔、烯、烷、醇、醛……发现了吗,它们几乎全是形声字。但是,标准化学用字中却有一个象形字:甾。这个字读[zāi],在古代常作“灾”的异体字,现代化学借它表示包括了类固醇类有机物。这个字象类固醇分子式之形,其中“田”代表了甾环的四个环,上面的三折则指代了甾环外的侧链。许多常见激素都属于甾体类物质。
每年过年的时候,你或许会看到有人张贴类似于这样的“招财进宝”、“黄金万两”。这些把很多个汉字中存在的构件强行拼合在一起,组成一个类似于方块字的集合的玩法,在文字学上叫作“合文”,也叫“合书”或“重构字”。我们说过,汉字是语素音节文字。这种合文不指向单一语素,读出来包括一排音节,所以它们不是一般意义上的汉字,而是以汉字字形为基础进行的一种文字游戏。
虽然合文加入汉字大家庭的努力失败了,但是这并不妨碍它在汉字体系之外作为一种民俗娱乐形式的存在。由于没有条条框框的规范限制,创造合文的游戏玩法多样,老少咸宜。谁都可以给自己身边熟悉的事物制造合文。比如说,方太现在造的这个合文字用它来表示一种集合多种功能的水槽洗碗机,就可以把“蔬”的草字头,“果”这个独体字,表示水的三点水,以及表示器皿的皿字底组合在一起,组装出这样一个合文字。