整合优化汉字规范 构建和谐语言生活——《通用规范汉字表》的制定与应用
信息时代汉字规范更为迫切
我国现代汉字规范工作酝酿于20世纪初期,新中国成立后,这项事业由学术层面转为国家行为,20世纪50年代以来的汉字规范政策,重要的由国务院直接发布或批转;一般性质的,由语言文字主管部门单独或是联合文化、教育、出版等部门发布实施。半个世纪的汉字规范实践,为我国人民的语言文字生活注入新的内容,形成了全社会的规范意识和遵循规范的用字习惯,对文化、教育、出版和科技的发展,起到了重要推动作用。
改革开放以来,国情发生了巨大变化。世纪交替之际,全球性的信息和信息技术革命导致了信息社会的实现。在一系列巨大变革中,汉字成功地进入计算机,成为在网络上直接传播汉语信息的重要载体。一个世纪以来的汉字“行废之争”圆满画上了句号,汉字不但要为中国走向世界发挥巨大的作用,而且要为弘扬中华民族悠久的历史文化遗产写出新的篇章。
信息时代借助于网络传播,达到了前所未有的高速度、远距离和高度的社会化。在这种情况下,汉字规范化的必要性更为凸显——只有汉字传播载体的标准化,才能保证信息传播的速度和信度。但是,上世纪50年代以来陆续制定的汉字规范的文件,指导思想不完全相同,研制手段互有差别,使规范缺乏内部的一致性;由于政治、经济、文化、教育的发展,社会用字情况有不小变化,过去的规范与当下语言生活也产生诸多不适;因此,需要站在新的历史高度、利用现代技术手段来考察当代用字的实际,对已有的规范进行梳理,消除其间相互抵牾之处,弥补因各种原因造成的疏漏,将一些隐性的规范显性,增加现代语言生活的新内容,从而使已有的汉字规范得到整合、优化,为构建和谐的语言生活打下基础。
新的汉字规范具有鲜明时代特点
《通用规范汉字表》的研制,在上世纪50-80年代规范的基础上制定,它记录了现代汉语通用汉字的规范字集。在字量、字级方面有两个重要的变化:《通用规范汉字表》一、二级字表是一般通用领域的汉字,两级相加6500字,比过去7000通用字少了500字。经多个语料库的测查,6500字对现代汉语语料的覆盖率,与过去比不但没有降低,在新闻、公文、科普等领域还略有提高。也就是说,在同样记录现代汉语文本的前提下,6500字与以前的7000字效应是相同的。这一方面说明,30年后的今天,选字所用的测查工具和统计方法更为科学,入选一般通用字的准确度更高了;另一方面,经过半个世纪的汉字规范,社会对汉字使用的自流现象得到了克服,用字更为集中。在《通用规范汉字表》设置的三级字表中,收字1605个,总数为8105个。
为什么有大量增加呢?在汉字进入计算机、成为传播信息的载体之后,“通用”的概念需要全面理解。通用包括两个侧面:书写的侧面,也就是信息发出的层面;阅读的侧面,也就是信息接收的层面。能够进入平衡语料库的汉字,兼有这两方面的通行度;但是也有一些汉字,书写的频度不高而阅读的几率却很高。主要包括以下四个领域的用字:
科技用字。由于科学技术的发展,很多科技用语快速进入社会日常生活。拿记录化学元素符号的汉字来说,很多要用在药品名上,当药方不再手写而用计算机输录时,这些字就成为病人和病人家属必读字。农药、化肥、室内装修材料也有不少是专用名词。化妆品、清洁剂的使用,饮食健康的讲解,气象的采集和预报等等,一旦进入科学普及领域,都会被民众普遍关注。
地名用字。地名用字的使用范围往往属于当地居民的常用字,而在信息社会,户籍、邮政、信贷、金融等行业的信息贮存和检索已经数字化,任何一个地名,起码是乡以上的地名,都会随着信息向全国甚至全世界的辐射而被使用。由于民族和方言发音的分歧,经常会产生一些任意造的转语字(即当地人根据方音自造的形声字)造成的用字混乱,带来信息错乱和阻塞,有些后果不堪设想。
姓氏人名用字。中国是一个多民族的国家,姓氏记录民族和血缘关系,成为每个公民的称谓符号。姓氏数量虽然有限,但是必须要正确使用。名字所用的汉字,现在已经相当混乱,有些名字的用字甚至在扩充到7万余字的国际编码中都难以找到,由于姓名用字不全,致使第二代身份证的制作产生很大的困难。新的规范汉字表无法改变过去的那种姓名用字混乱的事实,由于限制,也不能收入全部的姓氏、人名用字,但可以学习一些先行国家的经验,选择较为普遍的姓氏用字和适合起名字的人名用字进行规范,对个人姓名在社会上有效流通起到一定的作用。
基础教育文言用字。规范汉字主要书写现代汉语文本,但是,现代文本中会引用文言作品,中小学语文教材中也会收部分文言作品。前者可以在一般的平衡语料库中收集到,而为了保证教材印刷的规范,需要在语文教材中专门收集文言文的用字。
以上四个专门领域的用字对信息传播影响很大,几乎涉及千家万户,但是,这些汉字在平衡语料库里按照一般用字的覆盖率搜集不到。为满足计算机普遍运用、科技发展和社会交际的需要,《通用规范汉字表》需要在特殊领域准确撷取,设置三级字表,补充这四个专门领域的用字。
既遵循科学性又体现社会性
从立项到公开发布,《通用规范汉字表》经历了12个年头。长时间的研制,是要尽量保持它的科学性和社会性。
制定新的规范,要调整过去不同时期规范中处理不一致的地方,要符合实际地处理好简繁字问题、正异字问题,以及新收字与原有字的关系问题。汉字是全社会每天都在使用着的书写符号和信息载体,许多带有动态的属性,必须观察发展过程才能确立规律和特点,需要在一个较长的时间里,对逐年甚至逐月的汉字字频进行监测,才能做出胸有成竹的判断。21世纪汉字规范的研制,不能就事论事,也不能急功近利,需保持对汉字的理性认识。
但即便统计数据已非常准确,也只是就全社会的平均数而言。汉字是中国文化的基石,它承负着从实施基础教育到传承历史文化等不同层次的文化发展任务,普通民众、文化学者、语言文字第一线的专业工作者和承担语言文字学科研究的专家,这些不同文化层次、不同职业的人群,对汉字规范有着不同的要求。这些要求有时很不一致。
在汉字规范研制的过程中,出现了简繁之争、发展规律与使用习惯的矛盾、基础教育宜稳与社会用字求变的矛盾……汉字的社会性给规范的研制带来了诸多尖锐的问题。但一个基本事实必须顾及:上世纪50-80年代的规范施行了半个世纪,已经为全社会特别是基础教育和文化普及层面所熟悉,成为一种习惯。在这种情况下,新的规范每一个变动,使用者都需要重新学习。
信息时代的汉字规范必须适应现代化需要,也必须考虑文化的历史传承,有利于继承中华文化的精华。
基于以上原因,这次规范将103个常用字调整到二级字表,556个通用字调整到三级字表。同时有226个已经被群众认可的类推简化字加入字表,删去了原《简化字总表》中的31个字,将原调整的26个异体字确认下来,又将45个异体字调整为规范字。这6项调整大约涉及300字/次,加上新增的字,每一个字都是查检了古今用法,调查了使用情况,一次次征求意见,字字斟酌,仔细推敲,衡量利弊后才定下来的。字表历经12年、先后修改90余稿,海内外学者4000余人次参加研制、审查和修订,为的是择定相对优化的方案,使新的规范更加适应新形势下不同人群的多种要求,有利于多数群众学习和使用。
便于应用是本次制表的重要原则
《通用规范汉字表》有很强的承袭性,能够覆盖过去的规范。在字量和字级方面,书写现代汉语的文本,在网络上传递必要的信息,适应国内和国际交流的需要,一般是够用了;这里,我们要明确“规范汉字”对应两个不同的概念:一个是“不规范的字”。已经有了规范汉字,在通用层面上书写现代汉语文本时,仍然去用对应它的异体字或繁体字,特别是错讹字,就属于不规范字。例如:我们认定“泪”为规范字,“淚”是它的严格异体字,就不应当出现在现代汉语文本中;我们规定“险”“检”“剑”“俭”为规范字,一般不要在简化汉字文本里再出现“險”“檢”“劍”“儉”这样的繁体字。这样做,是为了减少冗余的字形,减轻汉字识别和记忆负担,增加信息传播的信度和速度。另一个是“未规范字”,也就是没有被收入规范汉字表中、也不对应任何一个规范字的字。这些字只要不是错别字,仍然可以使用。
根据《中华人民共和国通用语言文字法》,“有下列情形的,可以保留或使用繁体字、异体字:(一)文物古迹;(二)姓氏中的异体字;(三)书法、篆刻等艺术作品;(四)题词和招牌的手书字;(五)出版、教学、研究中需要使用的;(六)经国务院有关部门批准的特殊情况”。可以看出,新的汉字规范政策实施的强度和适用的宽松度是有所中和的。
规范汉字表规定了字级、字量和字形,但这是根据社会应用层面来确定的,在教育、教学领域制定应用字表,既要遵循规范汉字表的规定,又不能简单截用其中的一段使用。这是因为,在一些专业领域里,会有一些其他规律在起作用。
我们可以比较同一个字在三种语料库中不同的字频排列,结果见文后附表。
从表中人们可以看到,在国家语委平衡语料库和科普与教育综合语料库中,表中的7个字的频次相去未远,都比较靠前,而在适合第一学段儿童文学语料库中的频次,则要靠后得多。这是因为,6-8岁儿童的心理词典,与成人用词有较大的差距。事实说明,在制定课程标准时,分级字表不应当也不可能超越规范汉字表的一级(常用)字表,简单按规范汉字表的频次来截取字段的办法是不可行的,应根据教学实际与儿童不同年龄段的心理特点,采用汉字必要的属性做参数,才能生成适用的应用字表。也就是说,在基础教育确定选字范围时,既要遵循《通用规范汉字表》的常用字表,又要根据应用的特点慎重选字和排序。
社会语言生活永远处于变动之中,规范可以在一个适当长的时期内起作用,但也必须不断改进和完善,《通用规范汉字表》的定期修订是绝对必要的。
(作者系《通用规范汉字表》研制组组长、北京师范大学教授)