汉字定量之我见
【内容提要】本文讨论了汉文字的定量问题。主张在汉文字定量问题上确定“现代通用”原则,并正确认识和处理好“现实和历史”、“通用和专用”;“汉字规范和信息处理技术标准”三个关系。
【关键词】 汉字定量 现实使用 历史存在 社会通用 专门需要 汉字规范 信息处理技术标准
汉字定量中的“量”,是个分歧颇多的问题。历代辞书和新中国成立后国家主管部门发布的几个字表,所收字数都存在巨大的差异。从历代辞书来看,前汉末杨雄写《训纂》,收字5340;东汉许慎的《说文解字》收字数为9353个(另有重文1163个);梁代顾野王的《玉篇》收22726字;宋代《广韵》收26194字;宋代《集韵》收53525字;清《康熙字典》收47035字;1986年至1990年陆续出版的《汉语大字典》收字数为54678个;中华书局1994年版《中华字海》收字85568个。从新中国成立后国家历次发布的字表看,1952年6月教育部发布的《常用字表》收字2000个;1965年1月文化部和文字改革委员会联合发布的《印刷通用汉字字形表》收字6196个;1988年1月国家语言文字工作委员会和国家教育委员会联合发布的《现代汉语常用字表》收字3500个;1988年3月国家语言文字工作委员会和中华人民共和国新闻出版署联合发布的《现代汉语通用字表》收字7000个。另外,在汉字计算机信息处理的相关标准方面,1980年国家标准总局颁布的《信息交换用汉字编码字符集-基本集》(GB2312-80)收6763字;1993年12月国家技术监督局发布的GB13000.1-93国家标准收20902字;1995年12月全国信息技术标准化技术委员会制订的《汉字内码扩展规范》(GBK)收汉字(包括部首和构件)21003 个。众多的“字表”、“规范”,真可谓是五花八门,令人眼花缭乱,无所适从。
本文认为,要解决汉字的定量问题,需要确定一个原则,并且要正确处理三个关系。一个原则是“现代通用”原则。三个关系是:现实和历史的关系;通用和专用的关系;汉字规范和信息处理技术标准的关系。
一、汉字定量应以“现代通用”为原则
“现代”,是指只计现、当代正在使用的字,而不计虽然在历史上产生和使用过,但在现、当代已经不用的字。“通用”,是指只计在我们中国社会全体成员中广泛使用的汉文字,而不计在专门领域里只在个别场合所使用的字。
我们对汉字进行规范,作定量、定形、定音、定序的工作,其目的是为了方便当代社会的文字使用,使汉字更好地为当代社会生活的经济、政治、科技文化等各方面服务。因此,确立“现代通用”原则,是实现汉字定量工作目标的前提。
现当代社会的通用汉字量是多少呢?让我们来看一组数据:1975年,国家出版局组织进行了历时两年,内容包括工业、农业、军事、科技、政治、经济、文学、艺术、教育、体育、医学卫生、天文、地理、化学、考古、文字改革等领域书刊用字的频度统计,总用语料2160多万字,统计结果用字数为6876个,而其中3839字的覆盖率已达99.9 %[1];国家语委汉字处1988年编的《现代汉语常用字表》仅收3500字,然而经对政论、新闻、科技和文学四大类200万语料的统计,总覆盖率已达99.48 %;另据贝贵琴、张学涛汇编的《汉字频度统计》[2],5989个字的使用频度已占99.9999%。从个例方面来看,《毛泽东选集》一至五卷,只用了3100多字(重复使用不计);文学巨著《红楼梦》用到的汉字数也只有3600多(重复使用不计)。综合以上各项数据,可以得出的结论是:现当代通用汉字数不超出7000。
二、汉字定量要处理好现实和历史的关系
“现实”,是指现、当代所使用的汉文字;“历史”,是指现代以前历代文献也即古籍中所使用的汉文字。事实上,这里存在着一个交集,即在现、当代和古籍中都被使用着的汉文字集。这一交集又分为两个子集:一个是在现、当代和古籍中字形相同或基本相同的汉文字集;另一个是在现、当代字形发生了变化的汉文字集。后者主要体现在简体字和繁体字的关系上;另有少数是被淘汰的异体字。所以,严格地说,“历史”,应是指现代以前历代文献也即古籍中所使用的,现、当代已经不用的汉文字;或者是现、当代虽然还在使用但字形已经改变了的汉文字的旧字形。
1.现代以前历代文献也即古籍中所使用的,现、当代已经不用的汉文字,在汉字定量时不应该再计其数,当然也不应该收入正在制定的新字表中。
采取这一处理方法,会不会影响我们民族文化传统的继承呢?回答是否定的。
对于学校教材中采用的古籍内容,如果属语文以外的其他学科,完全可以义译为现代汉语后用当代通用汉字来排印,没有必要照搬原文。这个道理就像现代人说“我很高兴”,绝不会说成“吾甚欢”一样的明白。对于编入语文教材中的古文用字,可以分两种情况分别处理:对古文中的当代还在使用但字形变动了的字,按当代的规范字形排印,如原文用繁体字,可以改用简体字排印,这对原文的音、义不会有丝毫的影响;古文中的“历史”用字即当代已不用的字,按原字排印,再另加注释,由教师在教学中作为难点专门对其音、义进行讲解,说明该字是某某年代使用的字;对于学校教材以外,涉及古籍的其它现代出版物,也可以按此办法处理。
2.对于现、当代虽然还在使用但字形已经改变了的汉文字的不同字形,应该只计一字而不应该计为两字。已淘汰的异体字不应再计。比如同一个字的简体字形和繁体字形,二者是异体关系,应只计为一字而不是两字。如果把同一个字的繁体写法和简体写法算做两个字,那么这个字的小篆字形、大篆字形甚至甲骨文字形(如果都有的话)要不要也算作不同的字呢?
提出这个问题,初看好像是多余的,其实不然。例如本文第一自然段所述《汉语大字典》、《中华字海》以及GB13000.1-93和《汉字内码扩展规范》(GBK)的收字数,就都是把同一字的简体、繁体、异体进行重复计算所得的结果。有关文献(包括本文第一段)引用这些数据时,也都习惯这么说。笔者认为,这种字数统计法是不科学、不严格和不准确的。
《汉语大字典》的54678个字头中,约有11900组异体字[3];人们习惯所讲的《汉字内码扩展规范》(GBK) “20902”(或21003)这个字数中,起码多计了已被《简化字总表》简化了的2337个繁体字[4]。
许慎对《说文解字》所收字数的介绍是:“九千三百五十三文重一千一百六十三”[5]。一位1900年前的文字学家尚且如此严谨,我们难道不应该向他学些什么吗?
3.正确区分历史累计字数和历代通用字数
我们平常说的汉字总数有数万的这个“数万”,是历史总字数,即历代所用汉字的累计字数。实际上,自先秦至今每一个朝代使用的汉字即历代当时的通用字数并不多。汉字断代研究表明:古代童蒙识字的课本《三字经》、《百家姓》、《千字文》,不重复的字种数是1462个;宋代通行的四书《大学》、《中庸》、《论语》、《孟子》,总字数56764个,不重复的字种数也只有2320个;宋诗18000多首,字种数是4520个;字量很大的《十三经》,字种数也超不过6000个[6]。
三、汉字定量要处理好通用和专用的关系
“通用”,是指在我们中国社会全体成员中广泛使用的汉文字;“专用”,是指某些专门领域如出版印刷行业用字以及如古典文学、语言文字、历史、考古、哲学、中医等专业领域研究人员的用字。这里也有一个交集,这个交集的元素就是存在于“通用”汉字集里的专业术语用字。我们所讲的“专用”汉字,不包括这个交集中的字。
1.汉字定量工作的着眼点应该放到“通用”层面上。
汉字定量工作应该立足于我国社会全体成员文字使用的现状,也就是说,应该只计现、当代“通用”汉文字的数量而不计“通用”字以外的“专用”字的数量。
本文十分赞同徐莉莉教授关于“汉字的社会应用是分层面的”这一观点。徐教授认为:汉字的应用“大致可以区分为社会通用和社会特用两大层面。”并且指出“《中华人民共和国国家通用语言文字法》所推行的‘规范汉字’,由于其制订时的背景和宗旨,它的适用层面主要应该是‘当代’‘中国大陆’的‘社会通用层面’”[7]。
我国的总人口,按中华人民共和国国家统计局2001年3月28日公布的2000年第五次全国人口普查结果,为129533万人;另据“新华网”2005年1月6日报道,中国的第十三亿个公民于2005年1月6日零点2分在北京妇产医院诞生。
13亿人口中,可能用到通用汉字以外的其它汉字(即古籍用字)的专业人员有多少呢?笔者手头还没有这一方面的准确数据。我们按2000年人口普查的相关数据来估算一下:按当时数据,接受大学(指大专以上)教育的为4571万人[8]。即便所有这4571万人都从事与古籍有关的研究工作,也只占13亿人口的3.5%,更何况实际上“特用层面”的人口比例还要比这小许多倍呢?所以,在汉字定量工作中,我们应该把专门研究用字和社会通用字区别开来,把着眼点放到“通用”层面上。
这里需要提及的是:参与汉字定量工作以及国家法规性字表研制工作,和在这项工作上积极发表意见,提出建议的,恰恰又是“专用”层面上的文字学专家。国家有关部门的决策者所听到的,也就往往会是自觉或不自觉地从“专用”需要角度提出的意见。有关部门要清醒地认识到这一点。这也是对从事这项工作的专家们的一个考验。本文建议:为了避免偏差,要重视在“通用”层面上进行广泛深入的现、当代用字量的抽样调查。如可以在一定数量的中、小学教师和包括研究生、本科生、大专生及中学生在内的各级学校学生中进行识字数调查;也可以在包括公务员、企事业单位人员在内的各类社会成员中进行用字量调查。
2.出版印刷行业的用字总数不应作为汉字定量的依据。
“专用”层面上的一个重要方面,就是出版印刷行业的用字。笔者经常在有关报刊中看到不少文章的作者以不能满足出版印刷行业的需要为理由而提出增加字表收字量的主张。
本文认为,出版印刷行业用字,是属于“专用”层面的范畴。这个行业的用字量,无疑要比“通用”层面上的用字量大得多。但结合用字频度来考虑,“通用”汉字数也是可以满足出版业一般需要的。理由是本文前面所举的字频统计数据,就是以各类印刷出版物为样本得出来的。
依据现、当代通用汉字数给汉字定量,并不影响出版印刷行业在个别特殊的场合使用“通用”汉字以外的字。需要时完全可以通过使用特地为出版业制作的计算机汉字大字库或临时造字来解决。
3.关于地名用字和人名用字
讨论社会通用和专门需要的关系,还应提到地名用字和人名用字问题。有极少数字,除了某个地方的地名或某个人的姓名,在现代社会生活中再没有地方使用它。对于这种情况,本文主张修改该地名或人名。地名用字,可以由国家相关部门作统一规定,用适当的与原用字同音的现代通用汉字替换即可,这一方面,国家有关部门已经做了一些工作而且也还继续在做[9]。人名用字,分三种情况:一是对于历史人物的名字用字,可用本文前已叙及的对语文教材上古文中非当代通用字的处理方法解决;二是当代人物的名字用字,还是由其本人更改自己名字的用字较好。为了占总人口13亿分之一的某一个人让全社会接受一个使用率接近于零的字,有多少理由呢?三是姓氏用字。姓氏用字是不能淘汰的,这类字的数量应计入现代通用汉字的总量。
实际上,7000通用汉字是可以满足人名用字需要的。我们来计算一下:剔除7000字中不能用作人名的如贬义字、不吉利的字及部分动物名,比如“坏”、“奸”、“杀”、“狗”、“鼠”等字,算它三分之一可用作人名用字(为计算方便,算2500字吧),可以产生2500的平方即6250000个双名和2500个单名,合计为6252500。姓氏数按《百家姓》中的单姓444个,复姓60个计,合计为504个姓[10]。6252500乘以504,总共可以产生31.5亿个姓名。当然各姓氏的人口分布并不均匀,但再把单名67.7%的重名率及双名32.4%的重名率考虑在内[11],对于11.6亿人来说[12],应该是够用了。1988年国家语委语用所汉字室与二炮二所合作,对14省市的人口普查资料抽样选取了57万条姓名,统计结果表明:57万条姓名的人名用字仅为4141字。而其中的1505字就覆盖了57万条姓名的99%[13]。国家语委语言文字研究所张书岩研究员也建议大家在7000通用字范围内寻找人名用字[14]。
四、汉字定量要处理好
汉字规范和信息处理技术标准的关系
计算机技术在汉文字处理领域越来越普及的应用,给汉文字的定量工作带来了新的课题。主要反映在供信息处理使用的汉字字符集标准的制订上。汉文字信息处理的不同应用领域,对计算机用汉字字符集的收字量有不同的要求。在一般的应用场合,7000现代通用汉字是可以满足要求的;但在出版印刷行业、古籍整理研究以及与我国港澳台地区、海外华人的交流等方面,这个字数就不能满足需要了。这就引起了本文开头提到的多个标准的出现。如果把汉字规范和汉字信息处理的技术标准混为一谈,汉字的定量也就无所适从。所以,本文认为,要解决这个问题,关键在于区分“汉字规范”和“汉字信息处理技术标准”这两个不同的范畴。根据按“现代通用”原则测定的字量所编制的字表,属于“汉字规范”的范畴;而汉字信息处理方面的相关字符集,则是有关计算机中文软件的行业标准,属于“汉字信息处理技术标准”的范畴。把这两个概念分清以后,问题就好办了(这里实际又涉及到前面已经说过的社会通用和专门需要的关系问题)。笔者建议,首先制定一个收字与《现代通用汉字表》[15]相一致的,与现有几个信息处理用汉字字符集相兼容的《信息处理用标准汉字字符集》,然后再根据一些专业领域的特殊需要分别制定相应的扩展字符集,比如用于古籍研究出版,侧重于古代用字的字符集;用于同港澳台地区交流的简繁对照字符集等,甚至还可以制定甲骨文字集、金文字集、小篆字集等用于专门研究。相关专门单位和专家个人可以根据自己的需要来选用。但对于绝大多数机器来说,只需使用《信息处理用标准汉字字符集》即可。
把现代通用汉字的数量界定为7000,也是在汉字信息处理技术标准上体现汉字规范的需要。毫无疑问,在信息时代,汉字规范应该在汉字信息处理技术的标准上得到体现,这个体现就是前面提到过的制定一个收字与《现代通用汉字表》相一致的《信息处理用标准汉字字符集》。然而,二十多年来,大量的中文应用软件都是基于已有的几个字符集开发出来的,更加大量的中文计算机文档也都是基于已有的几个字符集的;因此,与《现代通用汉字表》相一致的《信息处理用标准汉字字符集》必须做到和已有的几个字符集兼容。推倒重来是不可取的,也是行不通的。而已有的几个字符集中,除基本集GB2312-80以外的其它几个字符集都有大量的异体字(简繁兼收),所以不能作为在汉字信息处理技术上体现汉字规范的《信息处理用标准汉字字符集》的基础。只有基本集GB2312-80是唯一一个没有异体字的信息处理用汉字字符集。7000字的定量,就可以利用GB2312-80汉字区中尚留的88区-94区的658个码位,补上该标准原来已收的6763字与7000之间相差的237字。即使把原有的6763字中可能会有少数字符不在新订的7000字表内,即补充字数要多于237个这一点考虑进去,658个空码位应该也还够用[16]。这样就可以方便地通过对GB2312-80的修订实现汉字规范与计算机信息处理技术之间在通用层面上的统一。当然,这样得到的字符集在排序上并不理想,但在既定的现实面前,仍不失为一种弥补的办法。
五、建 议
基于上述理由,本文建议:
1.把正在拟订中的规范汉字表定名为《现代通用汉字表》,按使用频度从高到低收7000现代通用汉字。
2、依据新订的《现代通用汉字表》对GB2312-80进行修订,使计算机汉字信息处理的技术标准与汉字规范相一致。
【注释】
[1] 有关数据引自周浩华著《计算机汉字系统的设计与实现》,第45页,华南理工大学出版社1992年版。
[2] 电子工业出版社1988年4月版。
[3] 见《汉语大字典》第八卷5333页,《异体字表说明》;四川辞书出版社,湖北辞书出版社1990年版。
[4] 《简化字总表》一、二、三表合计为2235字;又据沈克成、沈迦著《汉字简化说略》(人民日报出版社2001年1月版),一简对多繁的有102组字,此处暂按均为一简对二繁计算,实际上还有若干组一简对三繁的。另据李牧《两岸汉字字形的比较与分析》(见本书35页)一文统计,一简对多繁的总计有260字。
[5] 见许慎著《说文解字》;中国书店1989年1月影印本。
[6] 见贵凡:《人名规范网上问答(二)》,《中国语言文字网》2003年7月29日。URL:http://www.china.-language.gov.cn/ yanjiu/index.asp
[7] 见本书第10页,徐莉莉:《“‘书同文’模式”断想》。
[8] 相关人口普查数据引自《2000年第五次全国人口普查主要数据公报(第一号)》,中华人民共和国国家统计局2000年3月28日发布。
[9] 请参阅孙钧锡《现代汉字学史》,310页,学苑出版社1991年版。
[10]《中国人名大辞典》则集有四千一百二十九姓,其中单姓二千二百八十八个,复姓一千六百八十九个,三字姓一百四十三个,四字姓七个,五字姓两个。
[11] 国家语委语言应用研究所对57万条人口普查姓名资料抽样统计的结果:单名的重名率是67.7%,双名的重名率是32.4%。见《中国语言文字网》——人名规范网上问答(五),2003年7月29日。
URL:http://www.china-language.gov.cn。
[12] 我国汉族人口总数为11.6亿。见《2000年第五次全国人口普查主要数据公报(第一号)》,中华人民共和国国家统计局2000年3月28日发布。
[13] 见《教育部<人名用字表>正在制订 征集人名地名用字》,“云南信息港”2003年06月03日 。
[14] 见央视国际网络2001年8月16日新闻频道-社会新闻。
URL:http://www.cctv.com/news/society/20010816/283.html
[15]“《现代通用汉字表》”是本文作者对拟订中的“规范汉字表”的建议表名。如果定名为《规范汉字表》,就把所有未收入该表的字排除在“规范字”范围之外,这显然是不恰当的。
[16] GB2312-80的第10区至第15区尚有564个空码位。
陈明然 《汉字书同文研究》丛书编校组。