论文部分内容阅读
新闻中的事件抽取是信息抽取的重要研究任务之一,其主要目标是抽取出文本中蕴含的事件。尤其是越南语新闻的信息抽取,对处理好与越南的国际关系对区域经济发展、政治稳定有重要作用。一般来说,一篇新闻是由新闻文本中的多个事件组成的。在人们从新闻获取信息的过程中,人们除了获取新闻描述的多个子事件之外,还需要获取到这些事件之间的关联关系。这些关联关系同样是新闻的重要信息。因此,如何借助事件抽取来获得事件及事件间的关联关系显得至关重要。本文针对汉越双语新闻事件抽取这一问题,围绕汉越双语新闻语料构建、汉越事件抽取、汉越双语事件图构建等问题展开深入研究,完成了以下特色研究工作:(1)构建了汉越双语新闻语料库。针对汉越新闻分析及事件抽取的需求,定义了语料标注的内容,包括事件描述,事件要素,事件时间关系、事件共指关系及跨语言事件对齐关系等要素。收集了 508篇汉越双语新闻,采用XML语言进行了语料标注。为接下来的汉越双语事件抽取及汉越双语事件图构建提供重要支撑。(2)实现了基于机器学习和规则相结合的事件抽取方法。首先,选择词和词性、上下文的词及词性、语义特征等特征,并将汉语事件识别结果作为指导特征融入越南语事件识别中,采用支持向量机训练事件识别模型,识别事件触发词。然后,根据汉语及越南语的语法句法规律,定义不同语法结构的事件元素抽取规则,根据规则匹配抽取事件元素。最后,定义事件元素类型消解规则,通过规则匹配实现事件元素类型消解。对不符合事件元素类型消解规则的事件元素,通过与事件类型的词义集进行相似度计算来实现事件元素类型消解。实验结果表明提出的方法成功的提高了越南语事件抽取的效果。(3)提出了基于事件及事件间关联关系的双语事件图构建方法。首先,利用支持向量机模型抽取事件之间的共指关系及时间关系。然后,以事件为节点,以事件间的关联关系作为边,构建融合事件共指关系及时间关系的汉越双语事件图。最后,借鉴PageRank算法思想求解有向图中节点的权重,实现对汉越双语事件排序。实现双语事件图构建表征汉越新闻。(4)利用上述研究成果,设计了汉越双语新闻事件图抽取原型系统。实现汉越双语事件图抽取。