繁简字字形转换中模糊消解的非统计方法
(原载香港《语文建设通讯》87期,这里刊出的是该文的节选)
摘 要:简体中文和繁体中文是现代汉语并存的两种书面形式。它们在语音、词汇、语法等方面都有明显差异, 给大陆和港澳台地区的交流和沟通造成障碍。繁体中文和简体中文的最大区别在于字形,而繁简字字形转换的难点在于部分简化字与繁体字在字形的不对称对应。本 文结合大规模真实语料,主要分析探讨了对繁简字字形转换过程中由于繁简字字形不一一对应造成的模糊现象进行消解的方法。
关键词:不对称繁简字;繁简转换;模糊消解
现代汉语存在两种书面形式:简体中文和繁体中文。港台等地所使用的繁体中文与大陆使用的简体中文在文字、词汇以及语法等方面都呈现出比较明显的差异。繁简并存的现状在一定程度上成了大陆与港澳台地区在信息交流与沟通等方面的一个重要障碍。
1. 中文繁簡转换 与 繁简字字形转换
中文繁简转换应解决的基本问题是由繁体中文与简体中文的区别决定的。繁简中文的区别主要体现在以下四个方面:
(1) 字形:繁体中文使用繁体字形,简体中文使用简化字形。
(2) 字符集:繁体中文通常使用 BIG5 编码以及台湾官方发布的 CNS14649;简体中文则通常使用国标码字符集或其扩充版本,国家标准扩展码 (GBK) 等由中国大陆政府正式颁发的字符集。
(3) 词汇:繁体中文与简体中文在词汇方面的差异主要体现于两类词语,一是繁体中文与简体中文彼此找不到合适对应关系的词语。如:“縮班”、“杀校”、“老三 届”。二是非一一对应的词语,即一个繁体中文中的词语可能对应简体中文的多个意义,或者反之。如,繁体中文里的“家庭計划”对应简体中文中的“家庭的计 划”和“计划生育”两个意义;简体中文中的“检讨”对应繁体中文的“检查”和“讨论”两个意义。后一个例子中的词语在理性意义和感情色彩都是不对应的。
(4) 语法:语法方面的差异可以从词法和句法两方面来看。词法区别体现在繁体词类活用较多,否定词、连词和量词与简体中文也均有所区别。句法方面繁简中文的差异则主要体现在动词部分省略,动词搭配以及有字句、比较句等方面。
中文繁简转换的基础在于繁简字字形转换[1]。这是因为字形差异是繁体中文和简体中文的最大区别。“‘简体’中文的定义决定它不能用繁体的字形 书写,除非一个繁体字形不存在对应的简体形式。同样,‘繁体’中文除了某些次要的例外情况(如某些专有名词)之外必须不能以简体字形书写[2]。”就字形 差异而言,费锦昌先生在其 《海峡两岸现行汉字字形的比较分析》一文中对大陆的《现代汉语通用字表》内的7000个通用字和台湾地区的《常用国字标准字体表》内的4808个常用字进 行了字形比较,比较的结果是,两表所收相同的字有4786个,其中字形不同的即大陆使用简化字,台湾使用繁体字的有1474个字,约占总表的31%。另 外,据初步统计,在《简化字总表》第一表,不作简化偏旁用的350个简化字中,字形相差甚远、看不出关联性的字,如“出[齣]”、“丛[叢]”等有90多 个,约占此表的25.7%。可见,字形差异是繁体中文用户和简体中文用户在阅读没经过繁简转换的文字内容感觉困难的根本原因。
而现有大多数繁简转换工具处理多是只做不同字符集之间的转换,也就是编码之间的互转,转换并不针对繁简中文的不同字形。若是基于收录了所有简繁 体中文字符的字符集如 GBK 再利用这种方法做繁简转换是毫无意义的,遇到繁简字形对应关系存在歧义的繁简字一般也很难转换正确,例如对“老板板着脸”这样的句子就束手无策。
因此,我们认为,繁简字字形的正确转换是中文繁简转换的关键问题。
2. 繁简字字形转换的多选一模糊
2.1 繁简字字形对应和不对称繁简字
繁体字与简化字在字形上的对应存在以下三种情况:
1. 繁简同形。如“一[一]”、“丁[丁]”、“少[少]”等。
2. 繁简一一对应,即一个简化字形与一个繁体字形对应。如“帮[幫]”、“宝[寶]”、“报[報]”等。
3. 繁简不一一对应。繁体字与简化字的不对称对应,不仅体现在一个简化字对应多个繁体字形,也体现在一个繁体字对应多个简化字形。如表1、表2:
表1.简-繁的一对多 表2.繁-简的一对多
简化字 |
繁体字 |
繁体字 |
简化字 |
|||
发 |
發(出發) |
髮(頭髮) |
著 |
着(沿着) |
著(著作) |
|
板 |
板(老闆) |
板(木板) |
乾 |
干(干燥) |
乾(乾坤) |
|
别 |
別(告別) |
別(彆扭) |
徵 |
征(长征) |
徵(徵羽) |
1、2 两种情况的繁简字字形互转问题依靠建立一对一字形映射表就可以解决,而字形不对称对应的繁体字与简化字的互转问题则复杂得多,它们会因为对称关系的非唯一 性而造成转换多选一的模糊,是繁简字字形转换的难点。例如,简体字“松”,在繁体中文中对应两个繁体字形:一是“鬆”字,作“紧”的反义词;一是“松” 字,作义素包含在“松树”一词中。对于这样一句话“泥土松,松树动,松子轻松掉在泥土中”,单纯利用编码转换方式来进行转换的繁体结果通常就是“泥土松, 松樹動,松子輕松掉在泥土中”。繁体中文用户一般都会把转换后句子中的所有“松”字都理解为“松树”中“松”,从而给理解造成困难。本文主要针对这一类不 对称繁简字进行句法特点和语义特征的规则化处理,分析探讨了对此类繁简字字形转换的模糊消解方法。
在《现代汉语通用字表》所收录的7000个通用字中,有121组繁简字是不一一对应的[3]。由于简化字是根据繁体字转换生成的,所以“一繁对 多简”的情况并不多,共有14组,分别是:“讎(仇/雠)、兒(儿/兒)、乾(干/乾)、閤(合/閤)、夥(伙/夥)、藉(借/藉)、剋(克/剋)、瞭 (了/瞭)、麼(么/麽)、蘋(苹/蘋)、餘(余/馀)、摺(折/摺)、徵(征/徵)、著(着/著)”,另外还有107个简化字属于“一简对多繁”的情 况,它们分别是:
板 淀 丰 脏 后 胡 回 漓 须 帘 千 秋 松 咸 苏 郁 御 愿
芸 沄 致 朱 团 辟 卜 沈 虫 担 党 谷 柜 坏 几 家 价 据
适 蜡 腊 万 宁 朴 仆 胜 术 体 叶 吁 与 摆 当 发 汇 获
尽 历 弥 纤 表 才 丑 范 姜 困 霉 面 蔑 云 制 准 厂 广
别 冲 种 斗 划 系 卷 累 蒙 曲 确 舍 台 涂 旋 佣 症 恶
复 饥 卤 签 坛 只 钟 药 出 刮 冬 里 向 筑 岳 借 伙 。
值得注意的是,这121组不对称繁简字中有两组繁简字(藉/借、夥/伙)存在着交叉对应的情况,即“一繁对多简”的繁简字所对应的多个简化字中,有 一个简化字也对应多个繁体字。如“夥”字,它在表示“多”的义项对应的简化字形是“夥”,在其它义项则简化成“伙”字,属于“一繁对多简”的繁简字;但是 它所对应的一个简化字的“伙”,在表示“伙计、同伴”之义时,对应繁体字形“夥”,在表示“伙食”之义时,对应的繁体字形则是“伙”,属于“一简对多繁” 的繁简字。出于繁简转换多选一准确性的考虑,我们仍将其分入两类。
2.2 存在字形转换模糊的不对称繁简字分类
存在字形转换多选一模糊的繁简字,即不对称繁简字一般根据不同义项对应不同的繁体字形,例如“发”字,在表示动词义(如“发展”)及量词义(如 “一发子弹”)时对应繁体字形“發”;在表示“头发”之义时,对应繁体字形“髮”。此类繁简字字形转换的难易程度与这个字的语境复杂性也是紧密相关的,也 就是与需转换的字在表示不同义项时的单用能力强弱有关。我们把这121组不对称繁简字按义项单用能力强弱分为如下两类:
(一) 某个义项单用能力较弱的繁简字
一个字的单用能力较弱说明这个字一般很少单用,要与别的词或词组组合起来出现在固定词汇中,但不对称繁简字归并在此类并不是说这个字本身的单用 能力较弱,只是它在某一义项很少单用。此类繁简字一般对应两个繁体或简化字形,并存在当它们出现在特定词汇中时才对应其中一个繁体或简化字形的情况。如: “卜”对应两个繁体字形“蔔”和“卜”,它只在出现于“萝卜”一词时才对应繁体字形“蔔”,其它情况都对应繁体字形“卜”。
这类繁简字又可分为两种,一种是在对应其中一个繁体或简化字形时,只出现在某一词汇中的繁简字。如简化字“千”和“秋”都只在“秋千”一词中分 别对应繁体字形“鞦”和“韆”;在其它义项,则对应繁体字形“秋”和“千”。另外还存在一种不只出现在单个词语中,但它们在某一义项中对应的词汇却可以穷 尽的繁简字。例如简化字“胡”,在“胡子”这一义项中对应繁体字形“鬍”;在其它义项则对应繁体字形“胡”。
此类某义项单用能力较弱的繁简字一共有52组,包括如“回、千、秋、苏”等的44个“一简对多繁”的简化字 和 如“夥、雠、著、麽”等8个“一繁对多简”的繁体字。
(二) 单用能力较强的繁简字
单用能力较强的繁简字是相对于第一类在某义项单用能力较弱的繁简字而言的,这类繁简字在根据不同义项对应多个简化或繁体字形时,都不是只出现在 可穷尽的固定词汇中,而是呈现出单用情况比较多,临时生词能力较强的特点。此类繁简字共有69组,根据其义项的不同特点又可以分为四小类:
1. 某个义项作特殊义用的繁简字
这类繁简字一般对应两个简化或繁体字形,对应其中一个字形时,所表示义项比较特殊,如“一简对多繁”的简化字“云”,在表示“古汉语动词、助词 (例:‘人云亦云’、‘岁云暮也’)”时,才对应繁体字形“云”;其它义项中则对应繁体字形“雲”。再如“适”字,在作人名用字时,对应繁体字形“适”, 在其它义项则对应繁体字形“適”。另外,还存在着作拟声词用时才对应它所对应的两个繁体字形的其中一个的“一简对多繁”的简化字“当、冬”等;在作量词用 时才对应它所对应的两个繁体字形的其中一个的“一简对多繁”的简化字“出、里”等。此类繁简字包括23个“一简对多繁”的简化字和9个“一繁对多简”的繁 体字。
2. 动态组词能力强,临时生词多的繁简字
动态组词能力强说明该繁简字组词具有能产性,临时生词多,所组成的词语不可穷举。如“面”字,在表示“食物、粉末”义时,对应的繁体字形是 “麵”;在表示其它义项时,对应繁体字形“面”。“面”对应繁体字形“麵”时出现在“牛肉面”、“榨酱面”、“凉面”等这些无法穷举又一般不会收入词库的 词语中。此类繁简字一共有13个。包括如“御、团、担、谷”等11个“一简对多繁”的简化字和2个“一繁对多简”的繁体字“閤、藉”。
3. 按不同词性对应不同字形的繁简字
此类繁简字的特点在于在它们作不同词性用时,对应不同的简化字形或者繁体字形。包括8个“一简对多繁”的简化字,分别是“脏、斗、累、舍、旋、佣、仆、准”。下表举例说明它们在不同词性对应不同繁体字形的情况:
简化字 |
不同的词性 |
对应的繁体字形 |
例词 |
脏 |
形容词 |
髒 |
肮脏 |
名词 |
臟 |
内脏 |
|
舍 |
动词 |
捨 |
舍弃 |
名词 |
舍 |
房舍 |
|
仆 |
动词 |
仆 |
仆倒 |
名词 |
僕 |
仆人 |
|
准 |
动词 |
准 |
准许 |
名词、介词、形容词、副词 |
準 |
准确 |
4. 无规律可循的繁简字
这121组不对称繁简字中有16组繁简字在对应多个简化字形或繁体字形时,其义项基本没有规律可循,是不对称繁简字中字形转换多选一模糊最难分 析和消解的一类。此类繁简字包括14个“一简对多繁”的简化字如“辟、汇、制、划”等和2个“一繁对多简”的繁体字“剋、摺”。
…………。
(以下略)
【致谢:本文的写作得到北京师范大学中文信息处理研究所苗传江老师的悉心指导,特此致谢!】
参考文献
1. 费锦昌.海峡两岸现行汉字字形的比较分析.语言文字应用.1993年1期。
2. Jack Halpern, Jouni Kerman.汉字繁简转换的复杂性与陷阱.见:
www.cjk.org/cjk/c2c/c2cbasis.htm
3. 冯寿忠.“非对称繁简字”对照表.语文建设通讯.1997-9第53期。
4. 冯寿忠.字形整理与转换对应.语文建设通讯.2000年第65期。
5. 国家语言文字工作委员会.现代汉语常用字表,语文出版社.1988年1月。第1版。
6. 国家语言资源监测与研究中心编.2005中国语言生活状况报告,商务印书馆.2006。
7. 苏培成.现代汉子学纲要(增订本).北京大学出版社.2001。
8. 张书岩、王铁昆等.简化字溯源语文出版社.1997。
9. 胡双宝.《简化字繁体字异体字辨析手册》.北京大学出1社.1997。
10. 中国社会科学院语言研究所.现代汉语词典(第5版).商务印书馆,2005。
11. 黄曾阳.自然语言理解处理的20项难点.见:http://www.hncnlp.com
-------
+ 冯霞女士, 北京市北京师范大学中文信息处理研究所。
+ “模糊消解”(disambiguation) 首先是信号学的术语, 用在自然语言处理中, 大致等同于消除岐义。在自然语言处理中,统计学习方法和人工规则方法是两种基本方法。本文提到的四种方法基本上都属于人工规则方法的范畴,本文题目即为突出此点而定。