论文部分内容阅读
信息网络的高速发展为共享平台带来了每日数以亿万计的事件和话题内容,事件作为信息的一个重要表述类型,面向事件的研究得到越来越多人的重视,事件之间是存在着本质的内在联系的,这种内在联系体现了事件间存在的多种深层语义关系,而其中最为重要的关系即为事件因果关系。事件因果关系识别,有望为面向事件的知识表示、信息检索和自动问答系统等自然语言处理领域的相关应用提供技术支持,对突发事件文本的语义理解具有重要的研究意义。目前,有关识别事件因果关系的方法多集中于模式匹配和统计的机器学习方法。基于模式匹配的方法针对有显示关联词的显示因果关系识别效果较好,但对应于隐式因果关系的识别效果较差,该方法通用性不强。而基于统计的机器学习方法需要预先标注训练语料库,并且对特征具有一定的依赖性,通常识别效果随着语料规模增大而越好。针对上述问题,本文将提出一种基于LSP方法的事件因果关系识别,该方法在单一的事件对匹配基础上增加了句法模式匹配来增强因果事件对的识别效果,减少了对文本语料规模的依赖。主要内容和创新点包括:(1)基于最大熵模型的事件同指消解事件因果关系识别过程中,相同的事件触发词有可能由于没有指向同一实体,而被误判在因果事件对中,这时候往往需要对相同的触发词进行同指事件的判别,来帮助提升事件抽取过程中的性能。针对突发事件新闻文档密度高,同类别新闻语言风格相似的特点,提出基于最大熵模型的事件同指消解方法。该方法首先将人工标注的同指事件对象作为同指消解的正例和反例,分别训练正、反例的权重值,并根据事件的特点对事件要素进行分析,对文档提取语义、距离、关键词等方面的特征;然后,利用不同的特征组合循环迭代,训练最大熵模型;最后利用此模型对测试语料中待消解事件对进行计算来完成事件同指消解。(2)基于LSP的事件因果关系识别在最大熵模型的事件同指消解基础上,提出了一种基于LSP事件因果关系识别的方法。首先基于CEC2.0语料库通过结合事件触发词、事件要素以及关联词,从文本语义和句法结构入手,利用CEC语料现有的标注信息在训练语料中抽取LSP模式;然后通过统计方法分别对抽取的词汇、句法模式结合因果关系共性特征进行关联强度计算来得到LSP候选集;最后通过候选集在测试语料中进行模式匹配,并对匹配出来的事件对进行计算,使大于阈值的事件对为因果关系事件对,以此来实现对突发事件因果关系的识别。实验证明,基于LSP的事件因果关系识别方法在识别效率上与其它的方法相比有较大的提升。图[7]表[11]参[52]