繁简“非对称”字组的自动转译实验
1. 提要
1.1 定义:
本文所谓“繁体”,泛指台湾规范字;“简体”泛指大陆规范字。“非对称”的繁简对应也包括异体关系,笔者刻意不予区分,因为无论它们的关系如何,其解决的方式一样,须化“非对称”为“一对一”的对应。
1.2 样本:
各家得出的“非对称”字组数量有相当差异,其原因除是否包含异体关系之外,还有就是各人所依据的样本资料不同。笔者是以大陆规范《现代汉语通用字表》7000字,以及台湾规范CNS11643常用5401字为主要样本,加上为求二者对应而采录的1700多个台湾次常用字,合计样本字数7376字,共得“非对称”270字组(一简对二繁240组,一简对三个以上繁体字30组)。字组数量曾依实际情况更新,并用繁简自动对译一一验证无误。
1.3 自动转译的实验:
因为“非对称”字组中包括不少异体关系,所以,要解决此项问题,使两岸文字成为”一对一”的对称,必须彻底解决异体字的分歧,甚至需要两岸文字规范的统合;但这并非短期内能达到的目标。目前海峡两岸交往频繁,繁简字的转译全赖计算机自动转换。以短程目标而言,如果自动对译时没有误译,则即使存在“非对称”字组,也不至于影响文意的正确传达。基于这个理念,笔者作了全部270字组自动转译的实验(见文末附表),并假定完全没有词汇的智能设计。转译实验的结果显示:“繁转简”时,都没有误译,“非对称”字组皆可保持现状;“简转繁”时,大部分字组也没有误译,只有18组字出现误译,须作改变。
2.0 自动转译实验的方式及结果
2.1 实验的方式:
就“一简对二繁”言,某一简体字(代号J)对应了二个繁体(代号F1,F2),设“>”表示繁简或简繁自动转译,则第一步:J > F1 > J ,第二步:F2 > J 。经过转译后,如果3个简体字(J)完全相同,则表示“繁转简”应该没有问题。例如:郁>鬱>郁,郁>郁,转译后3 个简体字J (郁)完全相同。而“一简对三繁”或一对三以上的字组则照上述方式,继续作“繁转简”的对译,即F3>J,F4>J,…。至于“简转繁”的对译有否误译,除观察上述结果之外,还要考量日常用词问題。例如:前面所举“郁鬱”字组,转译后3 个简体字J (郁)完全相同,而“郁”是姓氏用字,就可能会有“郁”某人>“鬱”某人的误译。因此繁体“鬱”应加以处理。由于“鬱”笔画太多,与其由大陆规范增添,不如由台湾规范取消,并认同简化字“郁”的现行字义,以“郁”代“鬱”。目前台湾书局销售简体书籍的不少,台湾民众认识简化字也相当多,相信个别字的取代应是可行。其实台湾现行规范也不必改订,只要在“简繁转译”时,简化字“郁”保持原字形就可。
2.2 实验所得结果:
在“非对称”270字组中,就一般应用而言,“繁转简”几乎全无问题。这是因为“一对多”中的多个繁体字对应的都是同一个简体字。例如:繁体“績”对应简体“绩”,“勣”为异体,但对应的简体也是“绩”。繁体词汇“成績、功勣”转译为“成绩、功绩”,文意没有改变。另一方面,“简转繁”时,在270组“非对称”字中,虽然大部分没有问题(理由同上),但却有18个字组(占7%)须作一些调整,否则就会有错译出现。例如:卜卦>蔔卦,丁丑>丁醜,划船>劃船…。须更改的“非对称”字组,如表1 所示。
表1. 须改进的18个非对称字组
非对称字组 |
繁译简(无误) |
简译繁(误译) |
J |
F1 |
J |
F2>J |
建议: +(增) |
卜/蔔卜: |
卜挂>卜挂 |
卜挂>蔔掛 |
卜 |
蔔 |
卜 |
卜>卜 |
[陆规]+蔔 |
丑/醜丑: |
丁丑>丁丑 |
丁丑>丁醜 |
丑 |
醜 |
丑 |
丑>丑 |
[陆规]+醜 |
斗/鬥斗: |
五斗>五斗 |
五斗>五鬥 |
斗 |
鬥 |
斗 |
斗>斗 |
[陆规]+鬥 或改成[门斗] |
发/發髮: |
梳頭髮>梳头发 |
梳头发>梳頭發 |
发 |
發 |
发 |
髮>发 |
[陆规]+髮 或改成[发彡] |
范/範范: |
范某人>范某人 |
范某人>範某人 |
范 |
範 |
范 |
范>范 |
[台规]改用[范] |
复/複復: |
復興>复兴 |
复兴>複興 |
复 |
複 |
复 |
復>复 |
[陆规]+復 |
谷/穀谷: |
山之谷>山之谷 |
山之谷>山之穀 |
谷 |
穀 |
谷 |
谷>谷 |
[陆规]+穀 |
后/後后: |
皇后>皇后 |
皇后>皇後 |
后 |
後 |
后 |
后>后 |
[陆规]+後 |
划/劃划: |
划船>划船 |
划船>劃船 |
划 |
劃 |
划 |
划>划 |
[台规]改用[划] |
坏/壞坏: |
陶坏>陶坏 |
陶坏>陶壞 |
坏 |
壞 |
坏 |
坏>坏 |
[台规]坏改作坯 |
几/幾几: |
茶几>茶几 |
茶几>茶幾, |
几 |
幾 |
几 |
几>几 |
[台规]改用[几] |
姜/薑姜: |
姜某人>姜某人 |
姜某人>薑某人 |
姜 |
薑 |
姜 |
姜>姜 |
[陆规]+薑 |
里/裏里: |
6里遠>6里远 |
6里远>6裏遠 |
里 |
裏 |
里 |
里>里 |
[陆规]+裡或裹 |
历/曆歷: |
歷經>历经 |
历经>曆經 |
历 |
曆 |
历 |
歷>历 |
[陆规]+歷 |
么/麼, 幺/么 |
么喝>么喝 |
么喝>麼喝 |
么 |
麼 |
么 |
么>么 |
[台]么改作幺 |
咸/鹹咸: |
咸豐>咸丰 |
咸丰>鹹豐 |
咸 |
鹹 |
咸 |
咸>咸 |
[陆规]+鹹 |
郁/鬱郁: |
憂鬱>忧郁 |
郁先生>鬱先生 |
郁 |
鬱 |
郁 |
郁>郁 |
[台規]改用[郁] |
干/幹榦干: |
干與>干与 |
干与>幹與 |
干 |
幹 |
干 |
干>干 |
[陆规]+幹 |
此外,为求简繁文本转译后文意表达的准确,有6个字须作改进,如下表所示。
并/並併并:并vs并/並, |
併(如併吞),动词 |
并 |
並 |
并 |
併 |
并 |
[陆规]+併 |
局/局侷跼:局vs局/侷 |
跼,曲身,宜另列 |
局 |
局 |
局 |
侷 |
局 |
[陆规]+跼 |
蒙/蒙濛矇懞:蒙vs蒙/矇/懞 |
濛(如濛濛细雨) |
蒙 |
蒙 |
蒙 |
濛 |
蒙 |
[陆规]+濛 |
台/台臺檯颱:台vs 臺檯 |
颱(颱风与台风有别) |
台 |
台 |
台 |
臺 |
台 |
+颱[风台] |
系/系係繫:系vs系/繫 |
係有“乃”义,宜另列 |
系 |
系 |
系 |
係 |
系 |
[陆规]+係 |
只/只隻衹:衹/只;[qi2]僧衣 |
只/隻对应, 衹另列 |
只 |
只 |
只 |
隻 |
只 |
[陆规]+衹 |
由上表可知,大陆规范须增加12字:蔔、鬥、醜、髮、復、穀、後、薑、裡、歷、鹹、幹。它们可恢复为繁体,有的亦可简作其它字形。如:
鬥,亦可改作[门斗],以便书写。
髮,亦可简作[发彡],新的形声字。[发]用作声符,[彡]用作形符,类如”须”的形符。
後,常有“皇後”之类的错译,简转繁对译时不妨直接以“后”代“後,即两岸同用“后”表“後”义。
穀,可照“壳”的方式予以简化。
鹹,形旁“鹵”可类推简化作“卤”,以省笔画。
幹,亦可取“幹”的右旁。
台湾规范字要改的6字:範、劃、幾、鬱、坏、么 。
繁体“範、劃、幾、鬱”笔画太多,应从简;使用“范、划、几、郁”,达成与简体一致。
繁体“坏”是“坯”的异体,又是“壞”的简体,二者形同而音义互异,故宜用“坯”代“坏”,“坏”专用作“壞”的简体。
繁体“么”[yao]的简体是“幺”,而同形的“么”[mo]又作为“麼”的简体,形同而音义互异,故繁体“么”[yao]应改作“幺”,以与简体作对应。
3.0 某些非對稱字轉譯的調整(举例说明)
目前繁简自动转译在市场上有不同的软件,但所依据的是大家公认的一个繁简对照表。笔者在作自动转译实验时,发现这个对照表的一些字组,若能作合理的变更,对解决非对称问题,有所助益。须更正的”自动转译”的字组共31个字例,如下表所示。表中最后一栏注明更正的理由。理由共有六项:
a. 原译字为繁体字异体 b.新译字与简体字同形或对应 c.新译字可免二义性误译
d. 改正原译字错误 e. 新译字结构简单 f. 新译字具有形声功能
表 2. 简繁转译时现译字的更正 (31)
|
非对称字 |
说 明 |
原译 |
新译 |
理由 |
1 |
痴/癡痴 |
癡,台规异体;痴,形声兼意,两岸共作规范 |
癡 |
痴 |
a.b e.f |
2 |
虫/蟲虫 |
虫义同蟲,虫另有虺(hui3)义 |
蟲 |
虫 |
b.e |
3 |
冬/冬鼕 |
象声不宜用冬, 鼕vs咚 |
冬 |
咚 |
b.d |
4 |
党/黨党 |
黨,本义为黝黑;党,本义地方组织,更近今义 |
黨 |
党 |
b.e |
5 |
炖/燉炖 |
炖义含燉(煮) |
燉 |
炖 |
b.e |
6 |
挂/掛挂 |
掛为挂或体 |
掛 |
挂 |
a.b |
7 |
饥/饑飢 |
宜从简;饥/飢对应较佳 |
饑 |
飢 |
b.e |
8 |
汇/彙匯 |
汇可兼彙义,汇与匯对等对应 |
彙 |
匯 |
b.e.f |
9 |
荐/薦荐 |
薦,台湾规范的异体, 两岸共用荐为规范 |
薦 |
荐 |
a.b.e |
10 |
据/據据 |
据除含據义外,尚有“拮据”义 |
據 |
据 |
b.c |
11 |
霉/黴霉 |
黴,异体,两岸同用霉为规范字 |
黴 |
霉 |
a.b.f |
12 |
捻/撚捻 |
捻,以指搓,捏; 说文作撚 |
撚 |
捻 |
b.e.f |
13 |
啮/齧嚙 |
齧,同啮 |
齧 |
嚙 |
b.e |
14 |
确/確确 |
确, 说文作确,徐铉:今俗作確,非是 |
確 |
确 |
b.f |
15 |
晒/曬晒 |
曬,台湾规范的异体 |
曬 |
晒 |
a.b.e |
16 |
尸/屍尸 |
尸含屍义 |
屍 |
尸 |
b.e |
17 |
叹/歎嘆 |
歎,或体 |
歎 |
嘆 |
a.b |
18 |
体/體体 |
从简,體不用;两岸共用体为规范 |
體 |
体 |
b.e |
19 |
万/萬万 |
万,台湾规范次常用字,但亦常见 |
萬 |
万 |
b.e |
20 |
污/汙污 |
污,或体,但污常用 |
汙 |
污 |
b |
21 |
吁/籲吁 |
从简,籲不用 |
籲 |
吁 |
b.e |
22 |
勋/勳勛 |
勳,台湾规范的异体 |
勳 |
勛 |
a.b.e |
23 |
愿/願愿 |
愿义同願,形符心较能表意 |
願 |
愿 |
b.e |
24 |
艳/豔艷 |
台湾规范艷为豔异体,但”艷”字理明白 |
豔 |
艷 |
b. |
25 |
药/藥葯 |
葯,台规次常用字,但药亦常见 |
藥 |
葯 |
b. |
26 |
岳/嶽岳 |
嶽,异体;用岳可免岳飞译成嶽飞 |
嶽 |
岳 |
b.c |
27 |
云/雲云 |
雲,累增,云兼雲義;如孔子云>孔子雲 |
雲 |
云 |
b.c |
28 |
涌/湧涌 |
涌为湧或体;取涌舍湧 |
湧 |
涌 |
b.e |
29 |
证/證証 |
在凭证/验证上,证證相通 |
證 |
証 |
b.e |
30 |
冢/塚冢 |
塚,累增 |
塚 |
冢 |
b.e |
31 |
袅/嫋嬝裊 |
台规裊/嬝常用;嫋,次常用 |
嫋 |
裊 |
b.e |
这样在二(多)个繁体中选用一个较佳的字,与简体配对,等于为传统汉字做了一番文字整理工作。原用字(如“癡”)目前字频可能较高,择优选用(如用“痴”)之后,由于网络的频繁转译,新译字(如“痴”)将渐渐取得优势,而为大家所乐用。这不仅解决了繁简的“非对称”问题,更有优化汉字的作用。“痴(病于知)”不仅比“癡”更符合字理,而且结构简单,易于分析与编码。
4.0建议剔除的异体字
4.1 剔除异体字的原则及字例
前文己说明,要彻底解决繁简“非对称”的问题,必须使它们“一对一”的对应,亦即在“多繁”中删除异体,或把“非异体”的字加入大陆规范中。如果甲乙二字的字义全合(犹如二个同心等径的圆),则为“迭合异体”;如果甲字的字义包括了乙字(大圆含着小圆),则为“包孕异体”;这二种情况都可取一舍一。很多情形是甲乙二字的字义有交叉但并不全等(二圆互交),就要二字并取。异体字的研究因涉及古书的训诂,是很费力而难精确的事。笔者浅陋,只举出一些字例作尝试。尚请方家给予指正。
表3. 建议剔除的93个异体字
非对称字(异体字)说明 |
拟删字 |
非对称字(异体字)说明 |
拟删字 |
杯/杯盃:盃,或体 |
盃 |
尝/嘗嚐:嘗含嚐(试味)义 |
嚐 |
吃/吃喫:喫,或体 |
喫 |
锤/錘鎚:鎚为锤或体 |
鎚 |
棰/棰箠:箠为棰或体 |
箠 |
堤/堤隄:隄,或体 |
隄 |
唇/唇脣:脣,或体 |
脣 |
挂/掛挂:掛为挂或体 |
掛 |
焊/焊銲:銲通焊(接) |
銲 |
绩/績勣:勣,或体 |
勣 |
哗/嘩譁:譁,或体 |
譁 |
迹/跡蹟:蹟为跡的或体 |
蹟 |
鉴/鑒鑑:鑑义己为鉴/镜义取代 |
鑑 |
尽/盡儘:儘累增 |
儘 |
剿/剿勦:勦为剿或体 |
勦 |
浚/浚濬:从简,濬不用 |
濬 |
坑/坑阬:阬,或体 |
阬 |
漓/漓灕:漓义含灕,灕罕用 |
灕 |
璃/璃琍:琍,异体 |
琍 |
帘/簾帘:簾,异体 |
簾 |
梁/梁樑:樑,累增,台湾规范异体 |
樑 |
炉/爐鑪:鑪,或体 |
鑪 |
菱/菱蔆:蔆为菱本字 |
蔆 |
霉/黴霉:黴,异体 |
黴 |
秘/秘祕:秘,或体 |
秘 |
娘/娘孃:孃,或体 |
孃 |
乃/乃迺:迺,或体 |
迺 |
盘/盤槃:槃,异体 |
槃 |
炮/炮砲:砲,或体 |
砲 |
强/強彊:彊,或体 |
彊 |
戚/戚慼:戚可含慼义 |
慼 |
箬/箬篛:篛,或体 |
篛 |
剩/剩賸:賸,异体 |
賸 |
搜/搜蒐:蒐,异体 |
蒐 |
湿/溼濕:溼,或体 |
溼 |
蓑/蓑簑:簑,异体 |
簑 |
叹/歎嘆:歎,或体 |
歎 |
眺/眺覜:覜,异体 |
覜 |
藤/藤籐:籐,异体 |
籐 |
溪/溪谿:谿,异体 |
谿 |
嘻/嘻譆:譆为嘻异体 |
譆 |
弦/弦絃:絃,异体 |
絃 |
衔/銜啣:啣,或体;衔义含啣 |
啣 |
闲/閑閒:閒,异体 |
閒 |
筱/筱篠:《集韵》:筱或作篠 |
篠 |
恤/恤卹:卹,或体 |
卹 |
泄/泄洩:洩,或体 |
洩 |
烟/煙菸:菸,今字作煙 |
菸 |
岩/岩巖:岩,会意;巖,形声 |
巖 |
肴/肴餚:餚,累增;餚同肴 |
餚 |
焰/焰燄:燄异体 |
燄 |
迤/迤迆:迆,异体 |
迆 |
咱/咱喒:喒,异体 |
喒 |
棹/棹櫂:櫂为棹或体;棹义含櫂 |
櫂 |
占/占佔:佔,累增;占含佔义 |
佔 |
背/背揹:揹动词,背可兼揹义 |
揹 |
别/別彆:彆,弓末端;别扭=彆扭 |
彆 |
出/出齣:出可兼齣义 |
齣 |
彩/彩綵:彩义含綵义(色彩,彩衣) |
綵 |
杆/杆桿:从简,桿不用 |
桿 |
杠/杠槓:从简,槓不用 |
槓 |
克/克剋:剋,累增,克兼剋义 |
剋 |
卷/卷捲:捲,累增,卷兼捲义 |
捲 |
累/累纍:累含纍义;纍,不常用 |
纍 |
卤/鹵滷:繁体鹵又作滷,滷异体 |
滷 |
念/念唸:念可兼唸义 |
唸 |
球/球毬:毬,今字作球 |
毬 |
虱/虱蝨:蝨,字亦作虱(或体) |
蝨 |
席/席蓆:席含蓆义 |
蓆 |
熏/熏燻:熏含燻義 |
燻 |
效/效傚:傚,累增 |
傚 |
咽/咽嚥:咽义含嚥(yan4,吞) |
嚥 |
扬/揚颺:扬含颺(飘扬)义 |
颺 |
照/照炤:照含炤(明,耀)义 |
炤 |
沾/沾霑:沾含霑义(浸湿,附着) |
霑 |
致/致緻:致含緻义(精细) |
緻 |
冢/塚冢:塚,同冢 |
塚 |
赞/贊讚:贊含讚义(称赞) |
讚 |
殷/殷慇:殷含慇义 |
慇 |
筑/築筑:筑含築义(建造) |
築 |
注/注註:注含註义(批注,附记) |
注 |
泛/泛氾汎:汎,氾或体; |
汎/氾 |
刨/刨鉋鑤:刨可兼动名词 |
鑤 |
捆/捆梱綑:綑通捆 |
綑 |
袅/嫋嬝裊:裊/嬝常用;嫋,次常 |
嬝/嫋 |
苏/蘇甦囌:甦为异体 |
囌/甦 |
升/升昇陞:升含昇/陞義 |
昇/陞 |
愈/愈瘉癒:愈含瘉/癒义 |
瘉/癒 |
4.2 异体字研究中的困难——以“累/纍”为例
由《汉语大字典》查得“累/纍”的古今字义如次,(所引录古籍字句在此均省略)。
累 |
lei3 |
1)堆积;2)连续、屡次;3)重迭;4)增加;5)拖累;6)合计;7)絫;计量单位;8)转行貌;9)通裸;10)姓。 |
lei2 |
1)绳索,亦作缧;2)拘捆;3)同交配期牡牛。 |
|
lei4 |
1)负担;2)伤害;3)嘱托;4)罪行;5)缺陷;6)忧患;7)疲劳;8)从;9)恐;10)指妻子与资产;11)亏欠;12)缠绕。 |
|
lv4 |
古匈奴官名。 |
|
lie4 |
地名。 |
|
纍 |
lei2 |
1)连缀;2)绳索,亦作缧;3)缠绕;4)拘捆;5)无罪而被迫致死;6)延及;7)联络貌;8)盛甲的器具;9)公牛;10)姓。 |
lei3 |
同累;堆积、重迭。 |
|
lei4 |
同累;拖累。 |
《汉字形义分析字典》则着重今义解释,并表示“纍”是“累”的包孕异体,查得“累”的字义如下:
累 |
lei4 |
疲劳 |
|
lei2 |
1)累赘; 2)累累成串的。 |
|
lei3 |
1)堆积;2)连续、多次;3)牵连。 |
笔者相信“累”的原字形是“纍,声符“畾”兼意,表示累赘、连绵;犹如“雷”的原字形是“雨/畾”,雷声隆隆,连续重迭。但“雷”的原字形被淘汰,而“累”的原字形“纍”与“累”并存。在并存期中古人或用“累”或用“纍”,以致有《汉语大字典》那样纷歧的音义释解。因此,若从古今字义去判断,“累/纍”似应分列为二字;但若着重今义,则“纍”是“累”的包孕异体。
假定“书同文”的目标是5000个通用字,笔者主张,核定异体字不妨从宽,也就是应着重今义,使较多的异体淘汰。所谓淘汰是使它离开“通用字集”,回到汉字的“备用字库”,让专家学者在必要时访问它。台湾文字学家赵友培说:“字无生死,只有存废”,便是这个意思。偏爱繁体字的网友,大可放心吧。
5.0 结语
经过繁简自动转译的实验后,得到如下结果:
1.“繁转简”自动对译 ---即使存在“非对称“字组,亦极少有错译问题,笔者多年来的实践也证明了这一点。
2.“简转繁”自动对译 ---大部分没有问题,只有18个字组有误译的情况,有待改进 (详表1.)。
3. 有31个现译的字组若能作一些合理的变更,选择一个适当对应的繁体字,对解决“非对称“问题,有所助益 (详表2 ) 。
4.异体问题的研究相当不易,笔者建议着重在今义的分析。为达到书同文(5000通用字)的目标,古义或罕用义暂可忽略。笔者拟议删除的 93个异体字(详表3),是否妥适,尚待方家给予审阅并指正。
5. 在“非对称”270字组中,本文已提出建议的共148(18+6+31+93)组,尚余122组是待决的异体问题。
笔者生长在繁体字的语境中,迄今仍习惯使用繁体打字。在网站上发表的简体文章,完全是自动转译而成的。多年来实践的经验,得知”繁转简”的文本极少出问题。出问题的还是一些词汇的不当转译,例如繁体“字元”译作简体“字符”,有违笔者的原意。由此可知智能设计的功能有其限度,而繁简“非对称“问题的解决,根本之道还是自改进两岸文字规范本身着手。
【主要参考文献】
李牧《两岸汉字字形的比较与分析》,周胜鸿、陈明然主编《汉字书同文研究》第6辑(33-56页),香港鹭达文化出版公司2005年5月版。www.yywzw.com/stw 。
《语讯》编辑部《汉字简一繁多对应表》,香港《語文建設通訊》第90期;URL:http://www.huayuqiao.org 。
作者简介:
李 牧,台湾退休工程师,现定居加拿大。