搜索

浅层语义分析研究

gecimao 发表于 2019-07-16 20:20 | 查看: | 回复:

  计算机研究与发展Journal ComputerResearch DevelopmentISSN 1000—1 239|CN 11-1777|TP 45(Suppl.):321~325,2008 浅层语义分析研究 王挺陈火旺(国防科学技术大学计算机学院 长沙410073) (yaodong.then@gmail.tom) Shallow Semantic Parsing Research Chen Yaodong,Wang Ting,and Chen Huowang (School ComputerScience,National University DefenseTechnology,Changsha 410073) Abstract Semantic parsing afundamentalproblem naturallanguage understanding.Shallow semantic parsing,as methodology,can anovelstrategy.the rationale shallowsemantic parsing semanticrole labeling introduced.Acomparison madebetween two semantic role systems Chinese,andfeatures statisticmethods semanticview. Key words shallow semantic parsing;semantic role labeling;verb frames;role system;features 摘要语义分析是自然语言理解领域研究的根本性问题,浅层语义分析为此提供了一种新的解决途 径.从语义学的角度讨论了浅层语义分析的发展历史和理论基础,概述了语义角色标注任务的定义、相 关资源与方法.还着重介绍并比较了当前英语两大语义角色体系和汉语角色体系,最后给出了浅层语 义分析中统计模型的现有特征集的句法语义分类. 关键词浅层语义分析;语义角色标注;动词框架;角色体系;特征集 中图法分类号TPl8 语义分析是自然语言理解的根本性问题,也是 计算语言学研究中的重大难题.语义分析指的是在 分析句子的句法结构和辨析句中每个词词义的基础 上,推导句义的形式化表示.先前的语义分析主要 集中于词汇语义学,包括词义标注与消歧、词义本体 库的构建;句子级的分析以面向应用为主,缺少跨领 域的重用性.语义分析的难点主要有以下几个:1) 语义固有的复杂性.现今有关意义本质的理论共有 7种…,研究理论种类繁多,意义和语义分析难以获 得精确界定.2)语义与语法表现为从属关系,语义 受句法的束缚难以获得独立发展.计算语言学对语 言的分析一直以来追求“全面”和“深层”的目标,但 在复杂语言现象下,这种思想难免收效甚微.与之 相对,浅层分析采用“片面”和“浅层”的理念,在满 足应用的前提下,为解决复杂语言现象提供了一条 新的途径. 1浅层语义分析 浅层分析是近10年来计算语言学在方法学上 的重大突破,其基本思想是基于一套非严格定义的 标签体系,标注句子的部分成分并以标注结构作为 分析结果.浅层分析摒弃了深层成分和关系的复杂 性,因而能在真实语料环境下实现快速分析算法,获 得比深层分析(full parsing)更高的正确率.浅层分析 首见于CoNLL-2000【2 J文本组块分析(text chunking). 在关联理论(1inking theory)的推动下,CoNLL一 2004旧J提出了面向语义的共享任务——语义角色 标注(semantic role labeling,SRL),目标是结合语料 库技术与机器学习方法,开发识别动词框架并标注 收稿日期:2007 07 10 基金项目:国家自然科学基金项目(60403050);教育部“新世纪优秀人才支持计划”基金项目 万方数据 322 计算机研究与发展2008,45(增刊) 框架内语义角色的系统.SRL的研究分为两个方面: 1)浅层语义体系的开发.主要涉及谓词框架的 构建,角色的界定与分类.谓词框架的构建分为人 工构建和自动学习[4-s]两种.角色界定与分类关注 角色体系间的相关性研究与框架映射[6]. 2)分析方法的研究.主要涉及标注的过程、对 象与方法.标注过程分为角色识别(identification)和 角色分类(classification).前者指从句法成分中找出 可能的候选成分;后者指给候选成分以正确的分类. 另外,在识别之前与分类之后,一些启发式的剪枝规 则通常帮助去除交叉候选成分和冗余角色.浅层语 义分析关注的对象主要有词、短语、组块与句法关 系,研究较多是短语一J和组块旧j.当前大多数成熟的 统计模型在SRL取得较好应用,如ME[9l,SVM[10], CRF【1lJ等.文献[7,10]对SRL的相关研究进行了 综合评测. 2英语和汉语的语义角色体系 语义角色体系是浅层语义分析的重要组成部 分,角色体系的构建与应用主要体现在对动词的分 类也即动词的子范畴化(subcategory)之上,然而对 动词的语义分类目前面临着诸多困难【12]本节我们 将阐述动词框架和角色的相关理论,论述并比较英 语两大标注集(VerbNet和FrameNet)构建角色体 系的理论依据,最后讨论汉语的语义角色体系. 2.1动词框架与语义角色的基本理论 通过对语义理论的研究,我们将语义意义(the meaning meaning)的表述形式和相关理论分为3类:1)语义场与成分论.基本思想是,词通过某些共 特征和所属语义场的位置决定.2)集合论与义元论. 集合论通过一组词来表示概念,义元论以数量很小 的词汇集作为解释自然语言词汇意义的基础.3)范 畴论与框架.语义框架是由Fillmore于1977年提 出,框架是经验、信念或实践的结构背景,一个概念 由与之相关的一组概念标识(即概念的范畴).对于 动词,这组概念标识即是语义角色.框架是动词语 义的表述形式,标注框架是语义分析的实现形式. 语义角色受动词支配,角色根据不同的角度有着不 同外延.例如从动词词义的角度看待,角色是该动 词所表述语义场景(situation)的参与者(participator); 从句法的角度看待,角色是带句法功能的题元 (argument).浅层语义分析是建立在范畴论与语义 的框架表示之上的方法论,SRL是该方法论的实现 形式,它将语义分析问题转换为框架成分的识别与 分类的任务. 2.2英语语义标注体系 英语目前有两大语义角色体系:FrameNet和 VerbNet,其共同的理论基础是范畴论和框架语义. 1)FrameNet,FrameNet的动词分类依据是词 义的场景表述,即表述同一场景的动词归入一类,场 景由框架实现.语义角色是场景的参与者,也是框 架的组成部分,角色类型和数量是可扩展的. FrameNet按领域划分,领域下辖框架,早期的 FrameNet分有12个领域,67个框架,涉及1462个 谓语用词(927个动词、339个名词、175个形容词), 我们以文献[13]中的例子为例,图1中Communication 和Cognition表示两个领域,Questioning,Conversation, Statement,Judgment和Categorization表示框架;Argue, Banter,Debate,Dispute等归属Conversation框架,表 同语义特征(语义成分)类聚成语义场,词义由语义 示是同类谓词,Blame,Admire,Disapprove,Dispute 厂Domain:Communication 、/厂Domain:Cognition 、Questioning Conversation Statement Judgment Categorization Speaker Protagonist一1 Speaker Communicator Cognizer Addressee Protagonist一2 Addressee Addressee Item Message Protagonists Message Reason Category Topic Topic Topic Topic C‘riterion Medium Medium Medium 睾rguem-一圳卤高nverse-Vl/[ \DisapproVe—VlII ]Adm’ire-VI \\由Dispute-N]/ FrameNet动词框架万方数据 陈耀东等:浅层语义分析研究 323 等属于Judgment框架,也归属为同类.Judgment框 架内含有Judge,Evaluee,Reason,Role四个框架元 素(frame elements),即表示该框架的角色. FrameNet对每个框架所适用的场景、框架元素有详 细注释,并列出适用于某个框架的动词集合.由于 动词按场景分类,一个动词如果适用于不同场景,将 归属于不同框架,另一方面,同一框架下的动词不能 视为同义词.例如图1中Dispute归属于两个框架是 因为它可以表述两个不同场景,而不表示它为多 2)VerbNet,VerbNet对动词的分类基于动词的句法表现,其直接地依据来自Levin daSs4|.VerbNet 的语义角色称之为题元(或者论元argument),它是 对动词的范畴进一步提升后形成的固定数量的语义 成分.Levin对动词分类的思想来自于格语法和题 元理论,她认为“动词的分类是基于动词词义中共享 的组成部分”,同时又说到:“动词的句法表现能通过 它的语义来预测”.由此可见,Levin class以动词句 法结构的趋近“等价于”语义的趋近,论元数量和类 型相似的动词具有内在的“语义”相似性.依据上述 思想,Levin采用替换(alternations)作为分类工具. 替换是一套鉴定动词语义相似性的测试规则集,它 能同时衡量动词的内在词义和句法表现的相关性. Levin共构建73种替换,将3100个动词分为193 类.VerbNet的类别有大小之分,大类表示一个框架 所有可能出现的角色集和共享的alternation形式, 小类表示具备大类角色集的子集并共享某些特有 alternation的动词集.与FrameNet类似,VerbNet 中一个动词可能归属不同框架,同一框架下的动词 不一定是同义词. 我们对VerbNet与FrameNet简单总结如下: 1)两大体系构建的理论基础和表述方式一致,即动 词语义由框架表述,动词与角色共同组成框架,动词 按框架分类但框架不是简单的同义词集;2)两大体 系采用了不同的分类标准,角色数量与类型不同; FrameNet按场景划分动词,同类动词具有相似的参 与者集,角色数量与类型具有扩充性,VerbNet按 Levin的alternations划分动词,同类动词具有相似 的句法表现,角色数量与类型固定. 2.3汉语语义角色体系 汉语语义角色体系的研究起步较晚,其理论基 础也来自框架理论.汉语语义角色体系当前属于纯 语言学的研究范畴,其特点有:1)角色体系众多,角 色相互交叠.目前已提出的汉语语义角色体系有袁 毓林(17种)、孟琮(14种)、邓守信(9种)、鲁川(22 种)等.2)角色研究与动词研究相互独立,角色研究 以考察句法功能和范畴特征为主,缺乏动词与角色 的关系的系统研究.3)角色研究的角度单一,缺乏量 化,未形成类似Levin alternations的具体测试集合. 4)面向汉语的角色标注语料库渐具雏形.宾州大学 (University Pennsylvania)于2005年开发了Chinese PropBank 1.0,该语料库以宾州中文树库 (Chinese Tree Bank)为对象,涉及4865个动词框 架,标注37183个动词实例. 下面我们以袁毓林的角色体系[15]为代表,考察 分析现有汉语角色体系的特点(如表1所示): 表l袁毓林语义角色体系 万方数据 324 计算机研究与发展2008,45(增刊) 汉语角色界定的主要依据是句法特征和语义特 征.其中,句法特征描述角色可担任的句法成分,例 如“施事”可做主语、“受事”做宾语等,还描述角色对 应的动词或介词的一些特征.语义特征为角色对应 的词汇意义的内在特征.比较该语义角色体系后。 我们发现汉英语言现象具有的一些共通性和相异 性,共通性如: 1)宾语一主语.A.他用这把刀削苹果来着~ B.这把刀,他用着来削苹果. 这里我们可以把B句的“这把刀”分析为是A 句VP—V NP结构中NP提前到S外,在原来位置 留下虚迹(trace),因而B句也可以写成:1)C.这把 刀,他用着*trace*来削苹果. 相异性表现在汉语某些角色可担当的句法成分 比英语的角色更广泛,如: 2)方式一宾语.爸爸用高音唱~爸爸唱高音. 3)场所一宾语.你干啥老在食堂吃~你干啥老 吃食堂. 对于上述两句,英语没有合适的理论解释方式 角色或场所角色转换做宾语的现象.另外我们还观 察到,汉语语言学对角色的研究很少涉及动词的特 征,如动词的及物性与不及物性等.与FrameNet和 VerbNet不同,汉语角色的界定既与动词的词义无 关,也与动词的句法表现(即alternations)无关. 3浅层分析方法中的特征设计 自20世纪80年代语料库技术兴起以来,统计 模型已成为语言处理的主要策略,CoNLL一2004因 此将SRL任务建立在基于机器学习系统的开发上. 与采用何种模型相比,选取何种特征对提高任务的 性能更为重要【16].在SRL中,特征表现为角色标注 成分本身的信息和上下文信息,当前已得到应用的 基本特征有:Predicate,Path,Phrase Type,Position, Voice,Head Word,Sub-categorization等.文献[10,16] 讨论了不同阶段采用的特征集并介绍一些新特征, 尝试了现有特征的组合.下面,我们从句法和语义 两个角度考察现有特征集,如表2所示. 我们把所有与词性、短语相关的特征归为句法 特征,把所有描述词和词子类的特征归为语义特征. 对特征进行句法和语义的分类可为SRL的两个子 任务提供选取特征的依据.在角色识别阶段,分析对 象是句法成分,目标是判断成分是否为候选角色,因 而选取含句法信息的特征可以取得比较好的效果. 在角色分类阶段,分析对象为候选角色,属语义成 分,因而选取含语义信息的特征可以取得比较好的 效果.文献[10]在相同测试环境下横向比较上述特 征,结论表明Path是识别阶段最重要的特征;Head Word和Predicate是分类阶段最重要的特征. 表2特征的句法语义分类(仅列出基本特征) 特征名 句法特征语义特征 特征说明 4结语本文主要从语义学的角度讨论了浅层语义分析 的发展历史与基本思想,概述了SRL的任务、资源 和方法,并着重探讨了几个具体角色体系的构建依 据和结构.依据框架语义和范畴理论,浅层语义分 析将自然语言的“理解”这一难题转化为面向句法成 分的角色识别与标注任务.在比较和研究后,我们 认为浅层语义分析下一步研究的重点与难题包括 有:如何解决语义角色体系间在分类依据、构建方 法和体系结构上的异构性;如何开发富含特定语 言知识的特征和克服数据稀疏;如何开展面向汉 语的浅层语义分析的研究. 参考文献[1]李福印.语义学概论.北京:北京大学出版社,2006 [2]http..//www.cnts.tla.ac.be/conll2000,2000 [3]http://www.cnts.1la.ac.be/conll2004,2004 [4]Paseale Fung,Zhaojun Wu,Yongsheng Yang,et a1.Automatic learning Chinese—Englishsemantic structure mapping.IEEE/ ACL 2006 Workshop SpokenLanguage Technology(SLT 2006),muha,2006。 [5]Izaskun Aldezabal Roteta.Levin’S verb classes bmsque:Acomparison approach.UMIA(葛Computational Linguistics Colloquium,College Park,Maryland,1998 Giuglea,AMosehitti.Semantic role labeling via frameNet, VerbNet PropBank.COLING/ACL2006,Sydney,2006 万方数据 陈耀东等:浅层语义分析研究 325 [10】[11] [12] [13] VPtmyakanok,D Roth。W Yih.The nece.&sity syntacticparsing semanticrole labeling.CoNLL。Boston,2004 KHacioglu,S Pradhan,W Ward,et a1.Semantic role labeling taggingsyntactic ehunEs.CoNLL,Boston,2004 JHLim,Y SHwang,S Young Park,et a1.Semantic role labeling using maximum entropy model.CoNLL,Boston,2004 SPradhan,K Hacioglu。V Krugler,甜a1.Support veCtOr learning semanticargument classification.Machine Learning Journal,Special Issue Oil Speech NaturalLanguage Processing。2005,60(1-3):11—39 Trevor Cohn,Philip Blunsom.Semantic role labeling threeconditional rartdom fidds.CoNLL,Ann Arbor.2005 詹卫东.词的语义分类在汉英机器翻译中所起的作用以及难 以处理的问题.见:陈力为编.编语言工程.北京:清华大学 出版社,1997 DGildea,D Jurafsky.Automatic labeling semanticroles. Computer Linguist,2002,28(3):245—288 [14] [15] [16] Beth Levin.English verb classes alternations:Apreliminary investigation.Chicago:The University ChicagoPress,1993 袁毓林.一套汉语动词论元角色的语法指标.世界汉语教学, 2003,(3):24-36 Nianwen Xue,Martha Palmer.Calibrating features semanticrole labeling.EMNLP,Barcelona,2004 陈耀东男,1978年生,博士研究生,主要研究方向为 自然语言处理. 王挺男,1970年生,博士,教授,博士生导师,主要 研究方向自然语言处理、计算机软件. 陈火旺男,1936年生,中国工程院院士,教授,博士生 导师,主要研究方向为人工智能、计算机软件. 万方数据 浅层语义分析研究 作者: 陈火旺,Chen Yaodong, Wang Ting, Chen Huowang 作者单位: 国防科学技术大学计算机学院,长沙,410073 刊名: 计算机研究与发展 英文刊名: JOURNAL COMPUTERRESEARCH 2008,45(z1)被引用次数: 语义学概论2006 2.查看详情 2000 3.查看详情 2004 4.Pascale Fung;Zhaojun Wu;Yongsheng Yang Automatic learning Chinese-Englishsemantic structure mapping 2006 5.Izaskun Aldezabal Roteta Levins verb classes basque:Acomparison approach 1998 6.A Giuglea;A Moschitti Semantic role labeling via frameNet,VerbNet PropBank2006 7.V Punyakanok;D Roth;W Yih syntacticparsing semanticrole labeling 2004 8.K Hacioglu;S Pradhan;W Ward Semantic role labeling taggingsyntactic chunks 2004 9.J Hwang;SYoung Park Semantic role labeling using maximum entropy model 2004 10.S Pradhan;K Hacioglu;V Krugler Support vector learning semanticargument classification 2005(1-3) 11.Trevor Cohn;Philip Blunsom Semantic role labeling threeconditional random fields 2005 12.詹卫东 词的语义分类在汉英机器翻译中所起的作用以及难以处理的问题 1997 13.D Gildea;D Jurafsky Automatic labeling semanticroles[外文期刊] 2002(03) 14.Beth Levin English verb classes alternations:Apreliminary investigation 1993 15.袁毓林 一套汉语动词论元角色的语法指标[期刊论文]-世界汉语教学 2003(03) 16.Nianwen Xue;Martha Palmer Calibrating features semanticrole labeling 2004 本文读者也读过(5条) 李明琴.李涓子.王作英.陆大(纟金Zuo-Ying.LU Da-Jin 语义分析和结构化语 言模型[期刊论文]-软件学报2005,16(9) Dun.QIAOBao-Jun.CAO Yuan-Da.WAN Yue-Liang 基于语义分析的词汇倾向识 别研究[期刊论文]-模式识别与人工智能2008,21(4) Wen-rong.FENGShan.LIU li 语义分析在汉语相似性文献检测中的应用研究[期刊论文 ]-四川师范大学学报(自然科学版)2010,33(4) Ting.CHEWan-Xiang.LI Sheng 基于最大熵分类器的语义角色标注[期刊论文]-软件学 报2007,18(3) 引证文献(7条) 基于依存树的中文语义角色标注[期刊论文]-计算机工程2010(4) 基于词汇语义特征的中文语义角色标注研究[期刊论文]-中文信息学报2009(6)

本文链接:http://rachmashop.com/dongciyuyixue/566.html
随机为您推荐歌词

联系我们 | 关于我们 | 网友投稿 | 版权声明 | 广告服务 | 站点统计 | 网站地图

版权声明:本站资源均来自互联网,如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

Copyright @ 2012-2013 织梦猫 版权所有  Powered by Dedecms 5.7
渝ICP备10013703号  

回顶部