汉字安全问题分析及对策
一、重新发表《简化字总表》意义及经验教训
在中国大陆,从上世纪五十年代初开始的汉字改革,限于当时历史条件,汉字简化方案提出、征求意见、标准制定,颁布落实等只能在大陆进行,历经长时间波澜起伏,到1986年重新发表的《简化字总表》总共简化了2235个字。
重新发表《简化字总表》意义在于,对建国以来文字改革所走过的路进行总结和清理,及时废止了《第二次汉字简化方案(草案)》,纠正了社会用字混乱,统一了使用规範简化字,为稳定社会,促进四化建设起到了不可估量的作用。
经验教训在于,到了1986年,中国已经开始实行对外改革开放政策,计算机在逐渐普及,计算机汉字处理技术崭露头角,汉字由用笔书写逐渐向计算机输入过渡,但是,由于对汉字应用未来发展趋势估计不足,在“汉字的形体在一个时期内应当保持稳定,以利应用”思想主导下,错过了绝佳的全面整理简化字时机。
二、汉字安全问题及产生的原因
任何对汉字发展的不良影响都属于汉字安全问题。
隶变两千多年来,汉字简化基本规律主要有两点:一是常用趋简,二是约定俗成,在这里,常用趋简是主流,是从宏观考虑某类字或某个字是否需要简化,约定俗成是支流,是从微观考虑这类字或这个字应该怎样简化,汉字简化如果脱离这一基本规律,就会带来汉字安全问题,那么我们在简化字中得到的,将来可能都要还回去,甚至付出更多。
《简化字总表》含有2235个简化字,其中有1075个字不在《现代汉语常用字表》内,约占简化字总数的48.1%,这说明字表没有按常用趋简原则简化,只是按约定俗成构成的字表,违背了汉字简化基本规律,汉字安全问题由此衍生。
本文分两个阶段对汉字安全问题进行分析:从1986年重新发表《简化字总表》起至今,汉字安全问题是由计算机产生的,今後汉字安全问题是由互联网产生的,这样划分是因为这两个阶段汉字安全问题有着本质的不同。
三、计算机与汉字安全问题
在《简化字总表》中,简化字数量、平均笔画数、类推方法、繁简不对称的制定等,都是围绕汉字用手书写进行的,因此简化字与用手书写是相匹配的,但是,当社会进入信息化、数字化时代,汉字由用手书写发展为大部分由计算机完成,这时《简化字总表》就与计算机汉字输入不相匹配了,汉字安全问题也随之产生了。
1、繁简字不对称问题
汉字是古老的文字,从隶变时算起至今已经流通二千多年了,为人类留下了丰富的文字史料,目前在世界範围内,大陆及个别地区使用简化字,其它地区使用繁体字,因此需要进行繁简之间的转换,在《简化字总表》中,存在着繁简字不对称的问题,也就是一简对多繁,这在计算机自动将简化字转换成繁体字时就容易产生歧义,需要用人工调整,降低了转换效率。
2、简化字类推範围的确定
《简化字总表》对类推简化字是这样规定的:“如果通篇採用的是简化字,其中个别繁体字在《简化字总表》中找不到它的简化字形,而构成该繁体字形的偏旁已经简化,那么这个繁体字形也应该根据偏旁类推简化的原则予以简化”。但在计算机汉字输入条件下,这种规定需要配备庞大的类推简化字库来满足人们的需求,这是难以做到的,根据笔者粗略统计,类推简化字约占汉字总数(隶变後)三分之一以上,如果汉字总数按十萬字计算,类推简化字将超过三万,这种无限类推会给汉字带来灾难性後果,因此一致要求限制无限类推简化的方法。
2002年在安徽大学召开的“简化字问题学术研讨会”上,对简化字类推问题基本达成共识,即不赞成无限类推,主张应将类推限制在一定範围内,但类推具体範围还有待斟酌。
2009年8月发布的《通用规範汉字表》征求意见稿,把简化字範围限定在8300字,对类推简化字的规定修改为:“本字表以外的字,不再类推简化,个别领域确需类推简化的,需报国家语言文字工作主管部门批准”。这种方法虽然化解了无限类推带来的问题,但简化字总数最终能达到多少将始终是个谜,这给汉字数字化定量整理带来不确定性,另外,简化字类推改由部门审批,审批标准会随时间、人员的更迭而发生差异,具有不确定性,因此这种类推简化方法是否会产生新的汉字安全问题,目前还很难说,如果从长远考虑这种简化字类推方法存在着安全风险,是不可取的。
四、互联网与汉字安全问题
汉字不仅大陆使用,港澳台及海外华人地区都在使用,从这个意义上说,汉字也是国际通用文字,这样汉字在大陆只有简化字一种写法,但在世界範围就有繁体字和简化字两种写法了,这在互联网时代又产生了新的汉字安全问题。
简化字在大陆作为唯一流通字,代表的是国家名片,要想了解中国,从大陆获得更多政治和经济利益,那就要学习简化字,根据自己需求来选择简化字出版物,从某种意义上说这是卖方市场,目前在大陆发行的各种出版物,除了古籍和特殊需求之外,一般都是採用简化字,而在大陆外发行的各种出版物、也在逐渐採用简化字,对于大陆和港澳台邮件往来,没有因为大陆採用简化字、港澳台採用繁体字而受到影响。
但在互联网域名领域就不同了,大陆外除了个别地区使用简化字之外,大部分地区都在使用繁体字,互联网域名代表的是企业名片,大陆企业要想对外推广,从对外贸易中获得更多的经济利益,就要走出国门,到世界各地谋求生存参与企业竞争,从某种意义上说这是买方市场,那就除了要用简化字域名之外,还要用繁体字域名。
据报道,在互联网中文域名谈判中,从1999年开始至今,整整用了10年时间完成了中文域名的技术性问题和域名解析,在这里,中文繁简域名等效是最大的收获,这是经过两年艰苦谈判争取到的,这意味着从今年开始,港澳台以及海外华人在全球任何地方上网时,在地址栏输入繁体字一样可以登录到同一简化字中文域名的网站,中文域名和中文繁简域名等效给企业带来了很大方便,但也带来了新的汉字安全问题。
1、《通用规範汉字表》含字量的确定
《通用规範汉字表》征求意见稿含8300字,这是从近百年来各种刊物数亿字中统计出来的,具有普遍代表性,但字表如果不包括港澳台及海外通用汉字(如果是繁体字需要有对应的简化字),那么在国内登陆大陆外用汉字域名的网站时,计算机虽然可以繁简字自动转换,可能会因字表含字量不足而带来很多麻烦,例如字表有两千多个孤姓没有收录,但很难说港澳台或海外华人没有这些姓氏,因此,在互联网时代,《通用规範汉字表》不但要考虑在中国大陆通用,还要考虑在世界範围通用。
2、关于二倍域名空间问题
在中文汉字域名中,国际中文域名注册规则新规定如今已改为“汉字唯一性域名注册”,要求当所有简化字和繁体字都申请注册之後,才能最终提交注册。在实际操作中,当给出一个简化字域名後,系统会自动给出繁体字域名,汉字繁简字的任意一种对应域名被注册後,该域名无论再採用与之不同的简化字、繁体字以及繁体字的各种写法,都不能再注册,这就意味着採用汉字域名,本来只要採用後缀是CN和中国(或中國)2个域名就够了,但实际域名通常需要有以下6个:
1)简化字.CN;2)简化字.中国;3)简化字.中國;
4)繁体字.CN;5)繁体字.中国;6)繁体字.中國;
在《现代汉语通用字表》中,简化字约占总数的三分之一,而在域名中只要有一个字是简化字就存在繁简字两种域名,因此简化字域名约占域名总数三分之一以上,所以上述6个域名至少需要有二倍域名空间,二倍域名空间意味着设备有一半空间被白白浪费掉。
到2009年底,中国网民已经达到3.84亿,位居世界第一,但普及率只占28.9%,在利好经济刺激下,网民还呈爆炸性增长,如果未来发展趋势是每台主机就是一个网站,至少有一个域名,那么网站极限会超过10亿,域名总数会超过40亿,这其中有一半是由繁简字共同域名引发的,会给中国互联网带来严重超载,虽然这一天的到来可能很遥远,但我们应该有所警觉。
3、繁简字不对称问题
繁简字共同域名的规定,把繁简字不对称问题带入了互联网领域,与已往繁简字不对称问题的处理方法不同,在互联网领域,按照有关规定,对繁简字不对称产生的歧义性域名不是要纠正,而是要认同这种歧义性域名的存在,例如用“金发”域名时,“金發”和“金髮”也同时被域名,如果金店的域名应该是“金發”,而理髮店的域名应该是“金髮”,但当用“金髮”登陆到大陆的某金店时,会让人感到莫名其妙。又如著名相声演员“李金斗”用名字域名时,因为“斗”是沿用字,但会误认为是简化字而把繁体字“李金鬥”也同时域名,这名字含贬义就不妥了。
五、汉字繁简之争焦点问题
目前汉字繁简之争主要发生在语言文字领域,属学术之争,争论的主题是繁简字不对称带来的弊端,未来汉字繁简之争将转入经济领域企业利益之争,争论的主题是中国已经与世界融为一体,繁简字在世界範围共同流通,是否会对大陆企业造成额外负担,是否会拖累大陆GDP,是否还会影响到其它领域,届时汉字繁简之争已经不仅仅是文字学家的事,企业也将拥有一定发言权。
六、化解汉字安全问题对策
1、按照汉字简化基本规律修改《简化字总表》
为了从根本上化解汉字安全问题,这里把《简化字总表》的修改回归到常用趋简轨道上来,也就是从宏观把简化字控制在《现代汉语常用字表》範围内,然後再从微观按约定俗成把每一个需要修改的简化字处理得更好,方法如下:
在《简化字总表》中,类推简化字(第三表)有1753个,在这些字中,类推功能极强的12个简化偏旁“钅讠纟贝鱼鸟车门马页饣见”组成的字有1185个,占《简化字总表》的53%,是构成简化字的主体,因此《简化字总表》修改的首选就要把这12个简化偏旁恢复成繁体偏旁。但这还不够,在《简化字总表》中,有的字(第二表)是常用字,但类推简化字(第三表)不是简化字,例如“厌”类推简化字有6个“恹厣靥餍魇黡”,它们都不在《现代汉语常用字表》内,所以这些字恢复成繁体字。有的字(第二表)是常用字,但类推简化字(第三表)不都是常用字,例如“齿”是简化字,类推简化字有12个“龀啮龆龅龃龄龇龈龉龊龌龋”,其中只有“龄”在《现代汉语常用字表》内,所以予以保留,其馀类推简化字恢复成繁体字。还有的字不是常用字,但类推简化字中有常用字,例如“黾”不在《现代汉语常用字表》内,类推简化字有5个“渑绳鼋蝇鼍”,其中只有“绳蝇”在《现代汉语常用字表》内,所以予以保留,“黾”和“渑鼋鼍”恢复成繁体字。按上述原则进行修改,《简化字总表》可减少到600个字左右,并且都在《现代汉语常用字表》内。
把《简化字总表》调整到《现代汉语常用字表》并不是最终目的,大陆以此为基础,就可以与港澳台和海外华人共同探讨汉字的统一了,即使近期不能统一,也能达成以下共识:在互联网时代,繁简字在世界範围共同流通,无论是对使用简化字的地区,还是对使用繁体字的地区,都会形成一种“交流”障碍,会给企业带来额外负担而造成经济损失,因此,在繁简字统一的问题上,已经不能再等下去了。
2、开展繁简字不对称问题研究
全面开展繁简字不对称问题调查,力求最大限度修改。
3、与时俱进转变观念
上世纪五十年代开始的汉字改革,根据当时人民群众文化水平,确定以“人”为中心进行汉字简化方案制定,今天随着人民群众文化水平普遍提高,和计算机汉字输入技术日臻完善,过去依赖简化汉字笔画来达到提高书写效率目的,意义已经不大了,所以,未来汉字改革应与时俱进,转变观念以“汉字”为中心,为汉字的未来健康发展着想。
4、设立汉字安全预警机制
为了吸取历史教训,汉字改革应摒弃短期行为,要立足未来,不能让後人为我们感到遗憾,因此,建议设立汉字安全预警机制,对几十年来的汉字改革进行总结,对目前汉字改革方案进行安全评测:包括《通用规範汉字表》的简化字修改方案,按常用趋简原则修改《简化字总表》方案,还包括倍受人们关注的恢复繁体字和识繁写简方案,以及面向社会征求新的汉字改革方案等,然後对每一种方案进行汉字安全评测,做法是委托(招标)一家公司进行汉字安全评估和对未来发展进行预测,为汉字改革提供理论依据和建设性意见。
5、要重视过渡方案
改一字而牵动全盘,任何一个改动较大的汉字改革方案,都会对当前汉字的应用造成混乱,如果没有一个切实可行的过渡方案都是不可取的,在过渡方案的实施上应从长计议。
2010年6月20日
【注】本文和谐体所用繁体字及词例:
规範 十萬 後果 採用 理髮 计5字。
高国鹫:辽宁本溪钢铁公司设计院