论文部分内容阅读
因果关系作为事件外部关联中的一种语义关系,在文本中既常见又非常重要,有着广泛的应用前景。它反映了事件间的先后相继、由因及果的一种关系。因果关系的识别对文本事件抽取,深层语义理解有着重要意义,有助于获取事件演变的过程,对事件的发生进一步认识,从而为决策者提供重要的信息来预判事件后期的发展。本文针对传统的方法不能有效抽取维吾尔语事件间因果关系问题,对维吾尔语词性标注和事件间的因果关系进行了研究,提出了一种基于双向长短时记忆网络的维吾尔语事件因果关系抽取方法。为了适应维吾尔语事件间因果关系的抽取,结合现有的词性标注集,本文对维吾尔语词性标注集筛选扩充,最终确定了40种词性。条件随机场和长短时记忆网络是常用的两种词序列标注模型。在实际研究过程中,条件随机场的特征函数对模型最终的性能非常重要,需要精心设计;同时长短时记忆网络在最终打标签阶段,采用softmax进行处理,这种方法在处理输出标签有直接强烈关系的数据时,效果有限。为了解决这些问题,本文提出了一种基于双向长短时记忆网络和条件随机场混合神经网络模型,使用条件随机场对双向长短时记忆网络的输出概率矩阵进行建模,得到最终的词性标注序列。最终实验表明P、R和F值分别达到了90.48%、85.32%和87.36%。相比于条件随机场等方法,该混合模型对维吾尔语词性标注有更好的标注效果。在维吾尔语事件间因果关系抽取任务中,传统的方法采用手工提取词性,实体以及句法信息等特征,然后带入浅层机器学习方法中。这类方法未能充分考虑事件句的深层语义信息,实验结果也表明传统的方法不能有效的抽取事件间的因果关系。因此,本文提出一种基于双向长短时记忆网络的维吾尔语事件间因果关系抽取方法,将维吾尔语事件间因果关系抽取问题转换为对事件对分类的问题。首先通过对维吾尔语的格语法、词干词尾和语序结构等语言特点以及事件间因果关系特点的研究,提取出11项基于维吾尔语事件内部结构信息的特征;为了充分利用事件句的深层语义信息,本文引入词向量作为双向长短时记忆网络的输入,提取出维吾尔语事件句隐含的深层语义特征,同时为了加速模型的收敛,引入批量规范化算法加速双向长短时记忆网络的收敛;最后融合11项事件内部结构信息特征和深层语义特征作为softmax分类器的输入,最终完成维吾尔语事件间的因果关系抽取。最终实验表明P、R和F值分别达到了89.19%、83.19%和86.09%,验证了该方法对维吾尔事件间因果关系抽取的有效性。