论文部分内容阅读
新闻事件抽取是信息抽取的重要研究任务之一,其主要目标是抽取出新闻文本中蕴含的事件要素及事件关联信息。由于新闻事件是通过新闻文本中的子事件组成,而子事件及事件要素之间存在一定的关联性,如何借助子事件分析来获得新闻要素及关联至关重要。因此,本文针对新闻事件要素抽取这一问题,围绕新闻信息获取、新闻子事件类别识别及子事件元素抽取、新闻要素抽取等问题展开深入研究,完成了以下特色研究工作:(1)基于模板获取新闻信息。针对新闻网页结构多样化的特点,结合HtmlUnit爬虫和XPath技术定制新闻信息获取模板,从而对新闻网页进行分解,获取了新闻页面的标题、时间及正文等重要信息,实现了新闻信息的自动获取。(2)基于支持向量机模型的子事件类别自动识别和基于最大熵模型的子事件元素抽取。考虑到事件触发词、触发词上下文的词及词性等特征对子事件类别识别有一定的支撑作用,定义事件触发词表,利用句子中的触发词获取候选事件,融合触发词及其上下文的词、词性等特征构建支持向量机模型,实现了子事件类别的识别;考虑到触发词及事件句的依存句法特征对子事件元素抽取的支撑作用,定义不同类型的子事件元素模板,根据不同类型的子事件元素模板获取候选子事件元素,结合触发词及事件句的依存句法特征构建最大熵模型,实现了子事件元素的抽取。实验结果表明提出的方法能够有效识别子事件类别和子事件元素。(3)提出了融合子事件元素关联关系的新闻事件要素抽取无向图模型构建方法。考虑到子事件元素关联关系对新闻事件要素抽取的支撑作用,首先,分析了子事件及事件要素之间的关联关系。然后,以子事件元素表征节点,以子事件元素间关联关系表征边,构建融合子事件元素关联关系的新闻事件要素抽取无向图模型。最后,借鉴PageRank算法思想求解无向图中节点的权重,实现对新闻事件要素的抽取,实验结果表明提出的方法能够有效识别新闻事件要素。(4)设计并实现了中文新闻事件抽取原型系统,为进一步研究中文新闻事件抽取提供了研究平台。