成语知识库及“以”在成语中的词类—义项分布注1

俞士汶  朱学锋  王治敏


提  要  本文研究基于以下两个数据基础:(1)北京大学计算语言学研究所研制的汉语成语知识库;(2)基于《古今汉语字典》建立的单字词“以”的知识数据库。从成语知识库中抽取出含“以”的成语,整理后有427个。对“以”标注词类和义项,并按照“以”在成语中的位置进行统计,得到“以”与位置相关的词类—义项分布。这项成果可以在文本机器理解及语文学习中得到应用。本文还初步探讨了古今汉语的一些变化。

关键词  成语;汉语成语知识库;词类;义项;词类—义项分布

一、引言

2017年5月14日“一带一路”高峰论坛文艺演出,一群孩子高唱的歌词“天得和以清,地得和以宁,谷得和以丰,人得和以生”源自《道德经》,但其中“以”的词类、义项在《现代汉语词典》(中国社会科学院语言研究所词典编辑室,2016:1548)中查不到。现代汉语和古代汉语一脉相承,但又有变化发展。厘清汉语古今演变的脉络,一直是汉语语言学研究关注的课题。本文以古今都常用的“以”作为案例,微观地初步探索一下这个课题。采用计算语言学的研究范式,应该从古今汉语文本中搜索出尽可能多的例句,但工作量过大,且例句的冗余信息也过多。成语是产生于古代汉语却存活于现代汉语中的一类特殊词语,是汉语的活化石,能够为语言演变研究提供重要线索。北京大学计算语言学研究所研制的汉语成语知识库可以为本研究提供支持。

本文基于《古今汉语字典》建立了单音节词“以”的知识数据库。

从成语知识库中检索出所有含“以”的成语作为语料,对每个成语中的“以”标注词类和义项(完成这项任务实际完成了对成语的结构分析),可以得到“以”的词类—义项在语料中的分布。由于成语的字数有限,“以”在成语中的位置也只有有限的几个,进而可得到与位置相关的“以”的词类—义项分布知识。

关于成语的研究及成果浩如烟海,不过以往的研究偏重于个案的考据、解释与运用。由于成语知识库采用关系数据库文件(二维表)格式,便于对数以万计的成语进行检索、统计与分析,据此可以开展有关成语的全局研究。在这方面,本文也是一次尝试。

二、北大汉语成语知识库概览

北京大学计算语言学研究所在1986年研制《现代汉语语法信息词典》之初,便在其中设置了成语与习用语两个数据库文件(俞士汶、朱学锋等,2003:19—135)。2004年起,在此基础上,单独建汉语成语知识库,至2009年收入的成语(包含习用语)已超过30000条,且设置了诸多属性字段以描述成语的词法、句法、语义以及出处等各种信息。之后,一边进行完善,一边探索应用(俞士汶等,2013;俞士汶等,2015;Lei Wang等, 2012;Lei Wang等,2015;Wang Zhimin等,2016)。

从北大汉语成语知识库的数据库文件中挑选出含“以”的3个记录,列在表1中。表1节略了若干属性字段,为方便阅读,将文件中的行、列进行了转置。

表1  CIKB中含“以”的成语的样例

三、基于《古今汉语字典》的“以”词知识数据库

基于商务印书馆辞书研究中心编《古今汉语字典》(商务印书馆,2003:748—749),建立单字词“以”的知识数据库,如表2所示:

表2  单字词“以”的知识数据库

其中,“编号”即《字典》中对“以”设置的第一层义项的编号。“编号”为1—4 者,《字典》没有标注词类,据其“释义”及“例”,本文定为动词(v)。 “编号”5为介词 (p), 《字典》细分了8个第二层义项。“编号”6为连词(c),《字典》细分了7个第二层义项,其中义项7用于构成合成词,不在本文研究范围内。

表2最后一列数据不是《古今汉语字典》中原有的,而是本文的成果(下面再详细介绍)。

四、“以”的词类词义标注及其与位置相关的分布

4.1  含“以”的成语资料整理

汉语成语知识库中含“以”的成语有472条,针对本文研究的需要进行了整理。

1.删除“必以情”“取以来”等少数几个少于4个字的词语。

2.删除冗余信息,如删除“不以人废言”,只保留“以人废言”。不过,含异体字的成语,如“物以希为贵”和“物以稀为贵”都保留。

3.拆分:原有“差若毫厘,谬以千里”“差以毫厘,失之千里”“差以毫厘,谬以千里”“差之毫厘,谬以千里”“失之毫厘,差以千里”“失之毫厘,谬以千里”“谬以千里”7个成语,将它们拆分,只保留“差以毫厘”“差以千里”“谬以千里”作为考察对象。

4.研究对象只限于单音节的“以”。排除“以”是多音节词的构成成分的情况。如“知其然不知其所以然”中的“所以然”,“忘乎所以”的“所以”,“自郐以下”的“以下”等。二字串“以为”出现26次,其中“不以为然,自以为是”等中的“以为”是一个词,“认为”义,而“何以为生”的中的“以为”不是一个词,相当于“以何为生”。对这26次的出现一一做了甄别,其中9个是词,17个不是词。

本文以含单音节词“以”的、长度不少于4个字的427个成语作为对象语料。之所以将成语看成语料,是因为这些成语也都是有句法结构的,有的成语的结构还挺复杂,像“相濡以沫”是述补结构,述语“相濡”又是状中结构,而补语“以沫”则是介宾结构。

4.2  “以”在427个成语中的位置分布

本文考察的成语,不论长短,都只含1个“以”。四字格占绝大多数,406个。长度超过四字的仅有21个,其中五字的8个,六字的1个,七字的5个,八字的5个,十字的1个,十一字的1个。

“以”在成语中的位置分布(即“以”是成语的第几个字)如表3所示。

表3  “以”在成语中的位置分布

4.3  成语中“以”的词类—义项的标注

了解了成语的意义及用法,参照表2,考察每个成语的结构并标注其中所含的“以”的词类代码以及它的义项编码。

举“以沫相濡”为例,它是状中结构,“相濡”是谓词性中心语,“以沫”是状语。位于第1字的“以”属介词p,义项是1,即“拿,用,凭”义。将“以”标注为p1。

对427个成语完成了“以”所属的词类—义项的标注,这是本文工作的重心,具体成果在正文之后的附录中,表4以简表形式集中展示成果的概要。

表4  427个成语中“以”的位置及词性—义项分布

由表4即可计算出“以”的词类—义项在427个成语中的分布率(见表2),其中介词出现次数最多,计314次,连词111次,动词仅2次。介词中,义项为1(“拿,用,凭”)的最多,202次,接近总数的一半。连词中,也是义项为1的(“以便”)最多,39次。

4.4  关于古今汉语对比的收获

研究过程及其成果印证了引言中关于成语“能够为语言演变研究提供重要线索”的预想。目前,关于古今汉语对比,至少有了两点收获。

1.“以”的词类、义项的分布有了变化。

《现代汉语词典》(第7版)1548页有【以1】和【以2】。【以1】除去用作姓氏的义项外,有6个义项,【以2】对应表2中的最后一行即c7。可以看出,与古代汉语相比,现代汉语的“以”的词类、词义简化了。【以1】的6个义项分别对应表2中的p1、p4、p5、c1、p6与c5,它们在427个成语中出现次数之和为302次,占71%。说明现代汉语仍保留了古代汉语中“以”的主要用法。需要注意到,某些不常见的用法随着社会生活和语言生活的发展和变化,可能会重新引起关注,“天得和以清”等4句中的“以”作为连词的第2个义项(表2中的c2 ,“以致,因而”义)就是一个例子。

2.现代汉语继承了古代汉语的句法结构类型,但也有变化。

在标注成语中“以”的词类—义项的过程中,实际上已对成语的结构进行了解析。现代汉语的主要句法结构类型(《朱德熙文集》编辑小组,1999:15—28,109—197)都可以在成语中找到,如主谓(事以密成;物以稀为贵),述宾(铸成大错;以己之心,度人之腹),述补(晓以利害;相濡以沫),定中(八拜之交;一衣带水)和状中(道路以目;以沫相濡)。尽管成语字数不多,也有挺复杂的结构,如联合(招之即来,挥之即去),连谓(挟天子以令诸侯;执干戈以卫社稷),嵌套(“龙腾虎跃”是主谓结构的联合,“相濡以沫”是由状中短语“相濡”和介宾短语“以沫”组成的述补结构)乃至复句形式(差以毫厘,谬以千里)。一些成语虽有状中与述补两种结构形式,但其语义并没有差别,如“以沫相濡”和“相濡以沫”,“以诚相见”和“相见以诚”。在古代汉语中,可否将“相濡以沫”和“相见以诚”中的“以沫”和“以诚”分析为后置的修饰语呢?还有,“晓以利害”和“饱以老拳”中的“以利害”和“以老拳”也更像后置的修饰语。

还注意到,介宾结构也有变化。现代汉语介宾结构的宾语恒置于介词之后。但在成语中,常有宾语前置的情况,如“屈以求伸”即“以屈求伸”,其他如“诗以言志”“勤以立身”“俭以养德”“文以载道”等成语中,宾语也都置于介词“以”的前面。

五、标注实践经验小结

本项语言工程规模虽然不大,但难度却相当大。这里总结一下标注过程的经验,也许对类似语言工程的实施有启示和借鉴的意义。

5.1  成语结构的解析与整体意义理解的相互支持

要正确标注“掉以轻心”中“以”的词类和义项,既要知道这个成语的意思,又要了解这个成语的结构。《中国成语大辞典》对“掉以轻心”的释义是“以轻忽之心摆弄它,指不当一回事,不重视”(王涛等,2007:238)。显然,这样的释义未涉及成语的结构,不仅对“以”的词类、意义未做解释,“以”还是释义文本的用词,成了用“以”解释“以”。如果能认识到这个成语是述补结构(“掉”是述语动词,“以轻心”这个介宾结构做“掉”的补语或后置修饰语,“以”是介词p,义项编码为1,即“用,凭”义),显然对这个成语的理解更透彻。本文的任务就是要将这个成语中的“以”的词类—义项标注为p1。

人工标注时,通常先理解成语整体的意义和用法,进一步再判定“以”的词类与义项。当正确地判定了“以”的词类与义项,也可以检验理解得是否有偏误。

5.2  歧义消解是关键

标注实际上就是完成一个消歧任务:针对每个成语中的“以”,从表2罗列的“以”的3个词类以及每个词类的若干义项中确定一个恰当的词类和义项。举“相濡以沫”和“道路以目”为例。前者的释义是“本谓泉水干涸,鱼儿相互吐沫湿润” (王涛等,2007:1189),后者的释义是“百姓慑于暴政,在路上相遇,不敢交谈,敢怒而不敢言,仅能以目示意”(王涛,2007:219),这里的“以”的词义都是“用”,但“相濡以沫”中的“相濡”是述语动词,“以”是介词p,介宾结构“以沫”是补语或后置修饰语,该成语的变体“以沫相濡”可作为“以沫”是修饰语的佐证,故“以”标注为p1;而“道路以目”中的“以目”是状中结构,“道路”是“以目”的状语,故“以”标注为v1,消解了词类歧义。

“降格以求”与“计日以期”这两个成语中的“以”都是连词c,且连接的都是述宾结构与动词。不过,前者倾向于连谓,义项为1,即“以便”义,故标注为c1;后者倾向于连接状语与谓语中心词,标注为c6,如此消解了同一词类的义项歧义。

“讦以为直”中的“以为”还有潜在的组合歧义,这里的“以为”不是一个词。“讦以为直”的意思是“把讦作为直”,故本成语中的“以”应标注为p3。

5.3  模糊性的应对

无论是词类代码,还是义项编号,都是离散量。实际上,语言是连续统,存在模糊现象(俞士汶、朱学锋,2014)。在标注“以”时,同样需要应对模糊性。不过,本文没有采用模糊集及隶属度来描述所遇到的模糊现象。只是根据倾向性(或概率)或相关知识进行消歧,给“以”标注确定的词类与义项。这当然不尽人意,不过,作为初步研究,也只能如此。“屈以求伸”中,可认为“以”是连词c,义项为1,“以便”义;也可认为“以”是介词p,义项为1,“用”义,此成语都能理解,即“以”属于连词还是介词是模糊的。考虑到存在变体成语“以屈求伸”,故判定“屈以求伸”中的“以”是介词p,标注为p1。

实际上,在“以”的用法的演变过程中,“以”是沿着“动词”—“介词”—“连词”的轨迹逐步虚化的。判断“以”的词类与义项的总原则是,先考虑动词,应具有实际的含义;然后是介词;最后,意思很虚的,考虑为连词。不过,虚化的过程也具有模糊性。

5.4  正确性与一致性检验

标注的正确性是第一位的,但若只是孤立地考察一个成语,很难发现错误。采用不同方法(如按“以”的标注结果排序)对所有成语进行系统的一致性检查、比对,就容易发现错误。检验不同人标注的一致性、前后标注的一致性也可以发现错误。参照变体、近义(同义)、反义的成语也能发现一些不一致或错误。像“以管窥天”这个成语的结构与“以指测河”完全相同,起初误认为它们的意义也相近,既然“以指测河”的“以”标注为p1,那么“以管窥天”中的“以”也就标注为p1。后来发现“以管窥天”同“以郄视文”才是同义成语,它们中的“以”应标注为p7,义为“从,自”。

六、余论

词典对成语的释义一般是针对其整体意义的,即便包含对个别词语的解释,通常也只是关注实词或者专名,缺少对作为其构成成分的虚词的意义和用法的解说。本项研究标注了成语中“以”的词类与义项,有助于对含“以”的成语的透彻理解,并得到了常用词“以”的词类与义项在成语中跟位置相关的计量分布知识。这样的知识,便于机器学习,可以提高语言信息处理的智能水平,也可用于语言教学和词典编撰等非典型的信息处理领域。本文初步总结的标注实践经验也可同参与语料库标注工程的朋友分享。

本文研究可以按以下两个方向深入:一是全面标注并解析成语的句法结构;二是研究“以”之类常用词的词类—义项分布的历时演变过程。

本文作者一向重视语言知识在语言信息处理技术进步中的作用,即便统计模型比规则模型取得明显优势后,仍坚守语言知识的重要性,因为统计方法也需要训练语料。所谓训练语料就是按照需要预先加工、标注好的语料。在这里,人的语言学素养就起关键作用了。


参考文献

《朱德熙文集》编辑小组(1999)《朱德熙文集》第1卷, 北京:商务印书馆。

商务印书馆辞书研究中心编(2003)《古今汉语字典》,北京:商务印书馆。

王涛等(2007)《中国成语大辞典》(新一版),上海:上海辞书出版社。

俞士汶、朱学锋等(2003)《现代汉语语法信息词典详解》,北京:清华大学出版社。

俞士汶、罗凤珠、朱学锋等(2013)汉语成语及典故知识库在语文学习中的应用,《台湾华语教学研究》第二期,第13—36页。

俞士汶、朱学锋(2014)语言模糊性与语言工程实践,黎千驹、冯广艺主编《模糊语言研究》第一辑,北京:中国社会科学出版社,第275—284页。

俞士汶、罗凤珠、朱学锋等(2015)面向语言能力提升的成语知识库建构及扩展,《西华大学学报》(自然科学版)第5期,第1—6页。

中国社会科学院语言研究所词典编辑室编(2016)《现代汉语词典》(第7版),北京:商务印书馆。

Lei Wang, Shiwen Yu, Xuefeng Zhu, Yun Li(2012)Chinese Idiom Knowledge Base for Chinese Information Processing. 13th Chinese Lexical Semantics Workshop, CLSW 2012, Wuhan, China, July 6-8. 302-310.

Lei Wang, Shiwen Yu, Zhimin Wang, Weiguang Qu, Houfeng Wang(2015)Emotional Classification of Chinese Idioms Based on Chinese Idiom Knowledge Base. 16th Chinese Lexical Semantics Workshop, CLSW 2015, Beijing, China, May 9-11,Revised Selected Papers,197-203.

Zhimin Wang, Lei Wang, Shiwen Yu(2016)A Metaphorical and Cognitive Study on Idioms withRu”. Chinese Lexical Semantics 17th Workshop, CLSW 2016, Revised Selected Papers, 534-549.   


附录  按“以”的词类—义项归类的成语

c1连词,义项1,“以便”;占第1、2、3、4字的个数分别为20、1、15、3,小计39。

以尽吾齿  以售其奸  以求一逞  以为后图  以为口实  以快言论  以快先睹  以绝后患

以儆效尤  以荷析薪  以观后效  以防万一  以防不测  以正视听  以备万一  以备不测

以资切磋  以资鼓励  以刺世事  以终天年  学以致用  析骸以爨  凿坏以遁  磨厉以须

虚位以待  降格以求  虚左以待  虚席以待  残民以逞  摩厉以需  相呴以湿  虚己以听

摩砺以须  扫榻以待  摩厉以须  磨砺以须  挟天子以令诸侯  挟天子以令天下

执干戈以卫社稷


c2连词,义项2,“以致,因而”;占第1、2、3、4字的个数分别为0、7、3、0,小计10。

习以成性  率以为常  日以为常  习以为常  习以成俗  积以为常  习以成风  大车以载

谔谔以昌  扫地以尽


c4连词,义项4,“略同于表示先后相承的‘而’”;占第1、2、3、4字的个数分别为0、15、10、0,小计25。

引以为憾  导以取保  坐以待旦  赖以为生  引以为荣  引以为耻  无以复加  引以为戒

引以为鉴  适以相成  信以为真  乐以忘忧  无以塞责  引以自豪  坐以待毙  不随以止

如愿以偿  什袭以藏  迎刃以解  赍志以没  易口以食  望屋以食  赍志以殁  宁静以致远

淡泊以明志


c5连词,义项5,“而且”;仅占第3字,1个。

好整以暇


c6连词,义项6,连接状语与谓语中心词;占第1、2、3、4字的个数分别为0、18、18、0,小计36。

难以置信  聊以解嘲  难以释怀  难以启齿  难以忍受  难以忘怀  难以言状  聊以自慰

聊以自娱  难以预料  堪以告慰  仅以身免  难以为情  难以名状  难以为继  难以言表

聊以卒岁  聊以塞责  梦寐以求  枕戈以待  昧死以闻  计日以期  全力以赴  衮衣以归

严阵以待  引首以望  拭目以待  孜孜以求  无言以对  翘首以待  拭目以俟  计日以待

严阵以待  计日以俟  真诚以待  无言以答


p1介词,义项1,“拿,用,凭”;占第1、2、3、4字的个数分别为160、29、13、0,小计202。

以权达变  以叔援嫂  以势压人  以泪洗面  以柔克刚  以偏概全  以沫相濡  以卵投石

以屈求伸  以暴易暴  以情动人  以勤补拙  以强胜弱  以强凌弱  以大恶细  以水投石

以卵击石  以卵敌石  以利相倾  以力服人  以理服人  以蠡测海  以德报德  以杀止杀

以石投卵  以升量石  以慎为键  以半击倍  以伪乱真  以汤沃沸  以索续组  以水洗血

以身试险  以权谋私  以日继夜  以杀去杀  以弱制强  以弱胜强  以肉餧虎  以身作则

以肉喂虎  以肉驱蝇  以白诋青  以柔制刚  以狸饵鼠  以身试法  以功补过  以狸致鼠

以冠补履  以诚相待  以瞽引瞽  以骨去蚁  以古喻今  以古非今  以古方今  以长攻短

以功赎罪  以火救火  以戈舂黍  以丰补歉  以诚相见  以德服人  以法为教  以耳代目

以恶报恶  以碫投卵  以毒攻毒  以宫笑角  以胶投漆  以点带面  以酒浇愁  以次充好

以德报怨  以口问心  以渴服马  以冰致蝇  以酒解酲  以石压卵  以管窥豹  以肉去蚁

以狸至鼠  以简御繁  以简驭繁  以煎止燔  以假乱真  以假当真  以假充真  以计代战

以火止沸  以火去蛾  以不济可  以夜继朝  以夷治夷  以夷制夷  以夷攻夷  以夷伐夷

以一警百  以一儆百  以一奉百  以一当十  以一持万  以小见大  以水救水  以水济水

以夜继日  以逸待劳  以肉啖虎  以羊易牛  以言徇物  以牙还牙  以血洗血  以夜续昼

以学愈愚  以刑致刑  以刑止刑  以刑去刑  以心问心  以心传心  以夜继昼  以战去战

以紫乱朱  以锥刺地  以锥餐壶  以铢程镒  以铢称镒  以珠弹雀  以文乱法  以水投水

以众暴寡  以指挠沸  以指测河  以直抱怨  以疑决疑  以战养战  以佚待劳  以泽量尸

以怨报德  以玉抵乌  以玉抵鹊  以鱼驱蝇  以蚓投鱼  以镒称铢  以意为之  以意逆志

以逸击劳  以眼还眼  以直报怨  以文会友  以莛叩钟  以莛扣钟  以莛撞钟  以往鉴来

以桃代李  以螳当车  以汤止沸  以汤沃雪  以子之矛,攻子之盾  以其昏昏,使人昭昭

以小人之心,度君子之腹  以其人之道,还治其人之身  逸以待劳  诗以言志  一以当十

一以贯之  晓以大义  假以辞色  晓以利害  俭以养德  饱以老拳  卑以自牧  数以千计

数以万计  政以贿成  何以为生  数以百计  俭以养廉  文以载道  掉以轻心  日以继夜

夜以继昼  啖以重利  一以当百  勤以立身  夜以继日  屈以求伸  兵以诈立  誓以皦日

欺以其方  不以规矩,不成方圆  相见以诚  晓之以理  持之以恒  嗤之以鼻  绳之以法

许友以死  动之以情  率马以骥  继之以死  相濡以沫  戒奢以俭  喻之以理  一言以蔽之


p3介词,义项3,“把”;占第1、2、3、4字的个数分别为41、5、1、0,小计47。

以白为黑  以此为戒  以讹传讹  以耳为目  以攻为守  以古为鉴  以古为镜  以规为瑱

以黑为白  以毁为罚  以讦为直  以苦为乐  以苦为荣  以邻为壑  以鹿为马  以民为本

以筌为鱼  以人为本  以人为鉴  以人为镜  以忍为阍  以日为年  以身报国  以身许国

以身殉职  以身殉国  以石投水  以实为虚  以是为恨  以史为鉴  以手加额  以守为攻

以书为御  以退为进  以危为安  以信为本  以虚为实  以言为讳  以誉为赏  以紫为朱

以天下为己任  讦以为直  讹以传讹  讹以滋讹  民以食为天  邦以民为本  授人以柄


p4介词,义项4,“按照,依照”;占第1、2、3、4字的个数分别为15、9、3、0,小计27。

以辞取人  以誉进能  以此类推  以党举官  以古制今  以己度人  以己律人  以类相从

以礼相待  以毛相马  以貌取人  以人择官  以容取人  以己之心,度人之腹  以己之心,度人之心

宽以待人  方以类聚  物以群分  谬以千里  严以律己  差以毫厘  人以群分  物以类聚

严以自律  度己以绳  爱人以德  使民以时


p5介词,义项5,“因为,由于”;占第1、2、3、4字的个数分别为22、8、2、0,小计32。

以利累形  以一知万  以人废言  以疏间亲  以词害意  以辞害意  以言取人  以老卖老

以文害辞  以公灭私  以微知著  以微知着  以言举人  以私废公  以德追祸  以私害公

以噎废餐  以噎废飡  以养伤身  以义割恩  以义断恩  以五十步笑百步  事以密成  

邈以山河  羞以牛后  何以变卦  物以希为贵  不以辞害志  物以稀为贵  不以一眚掩大德

一则以喜  一则以惧


p6介词,义项6,“在,于”;仅占第2字,1个。

超以象外


p7介词,义项7,“从,自”;占第1、2、3、4字的个数分别为3、2、0、0,小计5。

以筦窥天  以管窥天  以郄视文  蒙以养正  出以公心


v1动词,义项1,“使用,任用”;仅占第3字,1个。

道路以目


v3动词,义项3,“及,连及”义;仅占第3字,1个。

剥床以肤


(俞士汶,北京大学计算语言学教育部重点实验室,yusw@pku.edu.cn;
朱学锋,北京大学计算语言学研究所, yusw@pku.edu.cn;
王治敏,北京语言大学汉语学院,wangzm000@qq.com)