论文部分内容阅读
汉语复句的关系识别是对分句间语义关系的甄别,是复句语义分析的关键,旨在从文本中识别句间的关系类型。对于复句关系类型识别的研究有助于推动机器翻译、智能问答、自动生成文摘等领域的发展,进而提高其整体性能。由于汉语复句中非充盈态有标复句的关系标记不能够显性的表明复句所含的关系类型,所以,给此类复句的语义关系识别任务造成了困难。而本文将展开对非充盈态复句关系类别识别的研究。现有的较为主流的复句关系识别方法主要有两种,一种是基于语言学规则的,该方法主要是由语言学家针对大量的语料文本归纳总结的约束条件,并且建立的相应规则库。而另一种则是利用统计学方法,在大规模语料库中提取出复句的词面、字面上的特征,从而构建基于语料文本的特征工程。然而,这些方法所得到的特征集泛化性能较差,以至于识别的正确率不高。另外,特征的工程量较大,需耗费大量的人工和时间。为了能够深度地挖掘复句的特征集和复句蕴含的语义信息特征以及捕获到复句内分句间相互作用的语义关联信息,本文首次将深度学习方法应用到汉语复句语义关系处理中,并引入词嵌入模型对复句进行单词建模。本文所做的工作有:首先,本文采用从《长江日报》和《人民日报》以及部分当代小说中提取的文本语料构成复句语料库,统计并总结了复句的关系类别与所对应的关系标记。在上述基础上,本文还构建了二句式非充盈态复句语料库,并将该语料库作为本文课题研究的主要数据集。其次,本文提出了一种基于词聚类的CNN与Bi-LSTM相结合的网络模型。该模型先使用词聚类算法对单词向量进行建模,为了提取到单词间的语义相似特征,然后用CNN对复句深度建模以获得到复句的局部特征。另外,该模型对CNN进行了部分改进,从而自动识别复句的关系类别。然后,还提出了基于句内注意力机制的多路卷积神经网络模型方法。其中句内注意力机制模型同样是基于Bi-LSTM的。同时,为了充分利用文本特征,联合使用卷积神经网络(CNN)对复句表示再次建模获得句子局部特征。以此获得了更加充分且显著的特征表示,进而对复句的关系类别进行更好的预测。最后,本文所提出的基于深度学习的方法在二句式非充盈态复句的数据集上进行了验证。实验结果表明,基于词聚类的CNN与Bi-LSTM相结合的网络模型和基于句内注意力机制的多路卷积神经网络模型,它们的性能优于基于语言学规则和统计的学习方法,与此同时保证了模型的可拓展性。另外,由于基于句内注意力机制的多路卷积神经网络模型引入了分句间的语义信息关联特征的提取阶段,并利用注意力机制聚焦到句子内部更加重要的语义信息,因此对模型训练阶段语义特征的学习起到了很好的提示作用,增强了模型的学习能力,故后者模型效果更优于前者。