理性看待汉字本体规范与编码规范
在欧美及发达国家,信息时代的真正兴起是上世纪60年代末期,而我国及部分发展中国家则始于上世纪80年代中前期。
中文信息处理的载体是汉字。为了迎接信息时代的到来,我国于1980年推出了信息交换用《汉字编码字符集GB2312-80》,与其并行的汉字本体规范有《简化字总表》和《现代汉语通用字表》。至此,汉字规范走向本体与编码的双轨制时代。由于两类规范所承载的功能不同,相互间存在一定程度的差异。
为便于国际间的信息交换,国际统一编码字符集提上日程,国际编码标准ISO/IEC 10646应运而生,并于1993年正式颁布了第一部分:体系结构与基本多文种平面,即ISO/IEC10646.1-1993,其中包括中日韩表意文字20,902个,字量上远远超过了GB2312-80的6763个汉字。
随着国际编码标准ISO/IEC10646的诞生,资源数字化风起云涌,社会用字需求不断增加,许多沉睡的汉字重新被唤醒。为满足信息处理的需要,国际编码标准ISO/IEC10646一直在不断地将大量汉字纳入其中,促使编码字符集的字量飙升,至今正式编码的汉字约七万五千个。
人们不禁要问:计算机里已经有了七万多汉字,为什么还要研制《通用规范汉字表》呢?这是因为各自承载的功能不同。
在国际编码标准ISO/IEC10646七万多中日韩表意文字编码字符集的构成中,囊括了中国(大陆、台湾、香港、澳门)、日本、韩国、朝鲜、新加坡、越南等国家,以及美国、日本公司在其信息系统中所使用的表意文字,基本涵盖了整个汉字文化圈。既包括了韩文吏读字、日本和字及越南的喃字,也包括日文简化汉字、中文简化汉字、繁体字、异体字、传承字、避讳字等等。以上构成情况表明,中日韩表意文字编码字符集是简繁、正异、新旧并存,多语言用字并存的一个杂收字集。
随着编码字量的不断增加,中日韩表意文字编码字符集的性质也由量变发生了质变,由原本简单的信息交换,发展为集交换与储存为一身的字符集。它更像我们现实社会中的字词典,只是存储介质的改变而已,其中的大量汉字是贮存和备用的角色,为的是将中文信息在虚拟空间得以全面展现。编码字符集的功用在于信息交换与信息呈现,更通俗地说,它的任务只是给世界上通行的汉字一个全世界统一的国际编码,以便不同国度和时代的汉字都能进入信息交换。空间上,它服务于整个汉字文化圈;时间上,它的服务跨度从古代绵延至今。
编码字符集囊括的汉字量大,涉及的语种多、涉猎的地域广,它在很大程度上满足了国际社会方方面面的用字需求。然而,由于编码汉字繁多,字符来源庞杂,表达同一概念的汉字,在字符集中出现多种形体、结构各异的字形,同一国家、同一时代的用户一般很难辨析、直接运用这个字符集去传播信息,给大多数普通用户的日常使用带来了沉重的负担,让人无所适从。
从跨地域、跨时代的角度说,ISO/IEC10646中每个汉字都有它的价值,但是,对于现代中国所要传播的信息来说,应使用哪些汉字,这些汉字应当怎样写,这才是我们必须解决的问题。《现代汉语通用字表》的发布距今已20多年,这20年,正是信息技术迅猛发展的时期,社会语文生活发生了翻天覆地的变化,为了顺应信息时代社会用字的新趋势,为了便于信息的交流与传递,国务院及时推出了《通用规范汉字表》。
《通用规范汉字表》是为满足中国大陆一般应用领域的汉字使用而研制的。它从统计学角度为汉字科学定量,又从文字学的角度对社会用字进行梳理、归类,从而给社会提供了一个字种和数量相对比较适度的字表,以方便社会的日常使用。《通用规范汉字表》的发布,将对汉字在现实社会和虚拟空间的运用起到至关重要的作用。
在信息时代,应理性看待汉字本体规范,它只能承载有限的需求,它与编码规范相互配合,才能构成一个完整的汉字规范体系。发布《通用规范汉字表》的目的是引导社会规范用字,方便通用汉字的使用,减轻人们日常用字的负担。至于信息系统的缺字问题,对偶尔使用、字频极低、覆盖率几乎等于零的那些字来说,就算拥有再多的汉字,也无法涵盖。因此,《通用规范汉字表》在“通用”与“规范”两个方面下功夫,正是从信息时代全社会的需要出发的。
(作者系高级工程师、国际标准ISO/IEC 10646的贡献编辑、国际标准化组织汉字工作组技术编辑。)