论文部分内容阅读
在网络信息爆炸时代,突发事件发生后,相关的新闻数量呈指数级增长。面对海量的网络数据,快速、准确地获取突发事件信息对网络用户和应急决策机构准确定位信息,精确把握事件发展态势至关重要。网络新闻突发事件信息抽取主要研究如何利用事件抽取技术从海量网络数据中抽取出人们所关注的突发事件信息,并构建事件模型将突发事件主题描述出来。本文围绕突发事件信息抽取,对文本分类、事件抽取和主题描述等相关技术进行了深入研究,论文的主要贡献如下:(1)深入研究了突发事件分类体系,根据突发事件类别体系结构的层次性特点,提出了一种基于领域特征词的突发事件层次分类方法。首先,将突发事件类别按照层次关系组织成虚拟类别树;然后,在虚拟类别树的每一层构建基于二叉树的SVM多类分类器,以类间距离之和大小指导二叉树生成,其中引入领域特征词概念,给出自动提取算法,并将其用于文本特征选择;最后,依照类别层次逐级往下分类。实验证明,基于领域特征词提取算法的特征选择方法优于传统方法,将层次分类方法应用于突发事件分类在降低时间复杂度的同时,改善了分类效果,有效降低了错误分类的风险。(2)针对传统基于触发词驱动的事件抽取方法在语料库规模较小时会出现正反例失衡和数据稀疏问题,提出了一种基于ISODATA聚类分析的事件抽取方法。该方法首先在事件语义模式的指导下构建特征模板,再利用最大熵模型识别事件实例;然后,给出基于多层特征融合的事件相似度计算方法,采用ISODATA聚类分析算法对事件进行聚类,并对ISODATA算法的分裂和合并处理进行了改进,以使其适用于非数值型样本聚类;最后,采用KNN分类算法确定每一类事件所属类别,完成事件抽取。实验证明,通过同一类事件推理验证,提高了对触发词类别关联性较弱和类别比较模糊的事件的分类能力,从而提升事件抽取的整体性能,并且算法具有自动发现未定义事件类别的能力。(3)为了更合理地描述突发事件主题,提高主题获取的效率,提出了一种基于事件框架的突发事件主题描述方法。首先,借鉴框架理论给出事件框架定义,在此基础上基于突发事件生命周期构建了突发事件框架;然后,在突发事件框架下将事件抽取技术和自动摘要技术相结合,给出了基于事件抽取的多文档自动摘要算法,用来抽取和组织事件主题,最终以摘要的形式完成主题描述。实验证明,该方法能够使用户在信息压缩的条件下获取突发事件的大部分主题信息,从而提高信息获取的效率,是一种有效的主题描述方法。