基于依存关系的中文语义角色标注研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:xinwei313624094
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为自然语言理解的一项研究重点,语义分析旨在将人类的自然语言转化为计算机能够理解的形式化语言。由于深层语义分析的复杂性,人们目前更关心浅层语义分析,一种简化了的语义分析形式,分析句子中谓词(动词或名词)的语义角色成分,包括施事者、受事者、时间、地点等。作为浅层语义分析的一种实现方式,语义角色标注(Semantic Role Labeling,简称SRL)已被广泛应用于更高层次的自然语言处理相关任务,如信息抽取、问答系统和机器翻译等。根据谓词词性的不同,通常可以将语义角色标注分为动词性谓词语义角色标注和名词性谓词语义角色标注。目前主流的语义角色标注研究都是基于短语结构句法分析进行的,并取得了一定的成果。但这种研究方案中,短语句法分析性能对语义角色标注性能起着主导作用,是现阶段语义角色标注的瓶颈。因此有研究者开始探索使用依存句法分析进行语义角色标注。另从研究现状看,针对中文语义角色标注的研究要比英文的少得多,其中一个主要原因是缺乏合适的标注语料。现阶段由于中文PropBank和中文NomBank的发布,使得对中文语义角色标注的研究成为可能。因此,本文从依存关系出发,研究中文语义角色标注,主要研究内容有以下三个方面:首先,探索了中文谓词标注,包括动词性谓词和名词性谓词。谓词标注是语义角色标注的前提,是语义角色标注中的重要一步,其性能直接决定了语义角色标注的性能。针对动词性谓词,本文实现了一个基于最大熵分类器的识别系统,并在CoNLL2008和CoNLL2009评测数据上进行实验;对名词性谓词的识别,除了采用基于最大熵分类器外,还采用了基于卷积树核的方法,并在中文NomBank的转换语料上进行实验。其次,研究了基于特征向量的中文SRL。在构建一个通用的基于特征向量的中文语义角色标注平台的基础上,重点探讨了特征选择对系统性能的影响,并分别针对动词性谓词和名词性谓词制定不同的特征集合,分析各个特征对系统的贡献度。实验结果表明,系统在中文名词性谓词上的P/R/F1值分别为:71.37/86.20/78.09。最后,首次尝试采用基于卷积树核的方法对名词性谓词进行语义角色标注。其中重点讨论了依存树的构造和剪枝,探索在结构信息本身就很少的依存树上,使得输入的树中尽量少的包含噪音信息。实验表明,基于树核函数的SRL结果与基于特征向量的结果已经非常接近。本实验作为基于卷积树核的探索性实验,为今后研究提供了有价值的参考。本文的主要贡献在于对基于依存关系的中文语义角色标注进行了全面研究,包括使用不同方法识别动词和名词性谓词;使用基于特征向量的方法构建语义角色标注平台,分析各个特征的作用;并首次使用基于核函数的方法进行中文语义角色标注。这些方法的研究及取得的成果对今后的研究具有重要的参考价值。
其他文献
基于构件的开发过程规范是目前在中小型软件企业普及构件化软件开发技术的关键,目前还没有适合于中小型软件企业发展的软件开发规范,加之当前没有一种统一的基于构件的开发过
随着我国城镇化发展水平的不断提升,车辆越来越多地服务于我们的日常生活。车辆在方便我们生活的同时也带来了一些问题,例如人工管理的效率低下、如何快速准确处理交通违章等
随着半导体技术以及集成电路技术的飞速发展,单个芯片中IP(Intellectual Property)核数量越来越多。当单个芯片上集成的IP核数日达到成百上千的时候,基于片上总线的SoC(SystemO
颜色是人类最敏感的视觉刺激,影响人们的情感,引起人们心理和生理反应,影响人们生活中的各个方面。因此系统地颜色-情感研究具有重要的理论和现实意义。本文通过设计颜色-情感的
空间聚类是空间数据挖掘的一项重要研究课题,空间聚类就是根据相似性对空间对象进行分组,使得每一个簇中的对象有非常高的相似度,而不同簇中的对象尽可能不同。空间聚类在地
Ad Hoc网络作为一种新型的无线网络,在日常生活中有着重要的应用,同时有着重要的科学研究价值。随着对Ad Hoc网络研究的不断深入,安全问题日益成为威胁其发展的重要瓶颈。在A
万维网知识表示相关研究的进展,特别是链接数据项目及相关数据集的发布,使得人类知识库达到了前所未有的规模。从网页中提取结构化知识的研究更促进了人类知识库向“万维网规模
学位
随着信息技术的迅速发展,众多应用领域如银行金融业、电子商务、生物信息、网络安全等产生了爆炸式的信息。不仅在数据规模上具有高维、海量的特征,在信息内容上还具有冗余多、
遗传算法和遗传编程作为进化计算模型中的两个最典型的分支,已成为人工智能的研究热点。遗传算法采用线性编码解决简单问题,而遗传编程采用树结构编码来解决复杂问题。2001年,葡
互联网是现代社会人们交流信息、共享资源的主要途径。作为搜索信息的重要平台,互联网所具有的海量数据、异构性、半结构性、极强的动态性、用户多样性等特点却给Web资源的挖