论文部分内容阅读
目前,自然语言处理技术最大的障碍就是语义的自动分析,而语义角色标注是浅层语义分析的一种实现方式,在问答系统、机器翻译等领域得到了成功的应用。语义角色标注结果的好坏,会对语义分析任务的建模方法有一定的影响,也会对问答系统、机器翻译等应用系统的准确性和鲁棒性产生影响。
本文创新之处在于采用了新的词义层面特征,首次将同义词词林信息特征及通过深度学习方法学习出来的分布式词表示特征分别应用到汉语框架语义角色标注任务上。在本文中,我们将该任务看作是以词为标注单元的序列标注任务,并在词,词性等基本特征的基础上,研究将同义词词林信息特征和分布式词表示特征应用在汉语框架语义角色标注任务中对性能的影响。
本文研究了基于同义词词林信息特征的汉语框架语义角色标注问题。在语义角色标注中,词特征为非常重要的特征,但词特征的稀疏性会对模型的性能造成很大的影响。本文在先前的基于词、词性、位置、目标词特征的基础上,在模型中加入不同的词林信息特征,以山西大学的汉语框架语义知识库为实验语料,研究了各词林信息特征分别对语义角色边界识别与分类的影响。实验结果表明,词林信息特征可以显著提高语义角色标注的性能,并且主要作用在语义角色分类上。
本文研究了基于分布式词表示的汉语框架语义角色标注问题。由于汉语框架语义角色标注实验的语料有限,手工定义的特征很难涵盖所有词语,因此手工定义的特征对语义角色标注结果的提升也相对有限。在信息爆炸的今天,有效的利用大数据信息将对我们的研究带来前所未有的便捷,深度学习正是基于这一理念,采用无监督的方法,对大规模自然文本进行特征学习,然后再将学习出的特征(我们称之为分布式词表示)加入机器学习模型中,有指导的学习出新的标注模型。在本文,使用深度学习的方法,学习出分布式词表示,以分布式词向量为基础构建新的特征,并使用CRFsuite模型,研究汉语框架语义角色自动标注,由于是初次探索,实验结果只是在部分框架有所提高,分析原因,一方面与语料规模有关,另一方面可能与参数调整有关,这些都是下一步要研究的重点。
本文创新之处在于采用了新的词义层面特征,首次将同义词词林信息特征及通过深度学习方法学习出来的分布式词表示特征分别应用到汉语框架语义角色标注任务上。在本文中,我们将该任务看作是以词为标注单元的序列标注任务,并在词,词性等基本特征的基础上,研究将同义词词林信息特征和分布式词表示特征应用在汉语框架语义角色标注任务中对性能的影响。
本文研究了基于同义词词林信息特征的汉语框架语义角色标注问题。在语义角色标注中,词特征为非常重要的特征,但词特征的稀疏性会对模型的性能造成很大的影响。本文在先前的基于词、词性、位置、目标词特征的基础上,在模型中加入不同的词林信息特征,以山西大学的汉语框架语义知识库为实验语料,研究了各词林信息特征分别对语义角色边界识别与分类的影响。实验结果表明,词林信息特征可以显著提高语义角色标注的性能,并且主要作用在语义角色分类上。
本文研究了基于分布式词表示的汉语框架语义角色标注问题。由于汉语框架语义角色标注实验的语料有限,手工定义的特征很难涵盖所有词语,因此手工定义的特征对语义角色标注结果的提升也相对有限。在信息爆炸的今天,有效的利用大数据信息将对我们的研究带来前所未有的便捷,深度学习正是基于这一理念,采用无监督的方法,对大规模自然文本进行特征学习,然后再将学习出的特征(我们称之为分布式词表示)加入机器学习模型中,有指导的学习出新的标注模型。在本文,使用深度学习的方法,学习出分布式词表示,以分布式词向量为基础构建新的特征,并使用CRFsuite模型,研究汉语框架语义角色自动标注,由于是初次探索,实验结果只是在部分框架有所提高,分析原因,一方面与语料规模有关,另一方面可能与参数调整有关,这些都是下一步要研究的重点。