汉语框架语义角色自动标注研究

来源 :山西大学 | 被引量 : 3次 | 上传用户:yediwuqiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,自然语言处理技术最大的障碍就是语义的自动分析,而语义角色标注是浅层语义分析的一种实现方式,在问答系统、机器翻译等领域得到了成功的应用。语义角色标注结果的好坏,会对语义分析任务的建模方法有一定的影响,也会对问答系统、机器翻译等应用系统的准确性和鲁棒性产生影响。
  本文创新之处在于采用了新的词义层面特征,首次将同义词词林信息特征及通过深度学习方法学习出来的分布式词表示特征分别应用到汉语框架语义角色标注任务上。在本文中,我们将该任务看作是以词为标注单元的序列标注任务,并在词,词性等基本特征的基础上,研究将同义词词林信息特征和分布式词表示特征应用在汉语框架语义角色标注任务中对性能的影响。
  本文研究了基于同义词词林信息特征的汉语框架语义角色标注问题。在语义角色标注中,词特征为非常重要的特征,但词特征的稀疏性会对模型的性能造成很大的影响。本文在先前的基于词、词性、位置、目标词特征的基础上,在模型中加入不同的词林信息特征,以山西大学的汉语框架语义知识库为实验语料,研究了各词林信息特征分别对语义角色边界识别与分类的影响。实验结果表明,词林信息特征可以显著提高语义角色标注的性能,并且主要作用在语义角色分类上。
  本文研究了基于分布式词表示的汉语框架语义角色标注问题。由于汉语框架语义角色标注实验的语料有限,手工定义的特征很难涵盖所有词语,因此手工定义的特征对语义角色标注结果的提升也相对有限。在信息爆炸的今天,有效的利用大数据信息将对我们的研究带来前所未有的便捷,深度学习正是基于这一理念,采用无监督的方法,对大规模自然文本进行特征学习,然后再将学习出的特征(我们称之为分布式词表示)加入机器学习模型中,有指导的学习出新的标注模型。在本文,使用深度学习的方法,学习出分布式词表示,以分布式词向量为基础构建新的特征,并使用CRFsuite模型,研究汉语框架语义角色自动标注,由于是初次探索,实验结果只是在部分框架有所提高,分析原因,一方面与语料规模有关,另一方面可能与参数调整有关,这些都是下一步要研究的重点。
其他文献
学位
本文以履带式移动机器人为研究对象,以TMS320F2812为系统核心,构建了履带式移动机器人的运动控制系统。对履带式移动机器人的平面运动进行了运动学分析,采用滑移转向方法对履带式移动机器人转向进行了动力学分析。针对履带式移动机器人差动驱动的特点,提出了机器人运动控制系统的实现方案,并给出了相应的软、硬件设计方案。讨论了直流电动机的PWM控制技术,并对速度和电流双闭环控制进行了分析。重点介绍了运动控
期刊
由于具有全天时、全天候工作模式和高分辨率等特点,合成孔径雷达已经发展成为一种重要的军用、民用遥感手段。随着数字化信息处理技术的发展,以SAR成像为主的雷达信息处理技术成为研究高效SAR系统的主要技术。与此同时,SAR系统庞大的数据量和下传速度之间的矛盾也日益明显,SAR原始数据压缩技术是缓解这一矛盾的一种有效手段。本文首先研究了SAR成像技术,介绍了基本的成像原理和SAR信号的性质,随后通过仿真实
学位
期刊
期刊
The question of national identity is one of the most contradictory ones in postcolonial era and postcolonial literature.It can be considered the most important issue due to the existence of the identi
学位
期刊
期刊
期刊