论文部分内容阅读
随着网络技术飞速发展,网络信息规模急剧增大,提供自动高效的信息处理技术处理大规模新闻信息成为了必然。话题检测与跟踪是以新闻数据流为研究对象,通过对话题的发现、识别和追踪,为用户呈现组织后的话题结果,这对舆情分析,信息调研等工作具有重要意义。本文研究中文的话题检测与跟踪任务中两个子任务即报道关系识别和话题跟踪的相关内容。分析国内外现有处理报道关系识别与话题跟踪技术的现状,为提高报道关系识别和话题跟踪的效果及降低错误识别代价,对相关技术进行改进:针对报道关系识别提出抽取要素关联词对并计算关联词对的相似度的方法对报道的表示模型进行补充;针对话题跟踪,在类别选择的基础上提出一种基于改进KNN的话题跟踪算法。在报道关系识别研究中,根据相关报道的新闻要素基本相同的特点,把报道分成时间、地点、人物和内容四个向量,对其分别使用余弦相似度计算。抽取要素的关键特征词作为关联词对以补充报道的表示模型,并提出计算关联词对的相似度计算方法,为检测报道之间的相关性提供更多的依据。在话题跟踪中,为了解决常用KNN算法计算量大且易受训练样本分布的影响的问题,利用平均权重高的特征表示话题,使用KNN找到K个近邻话题,在K个近邻话题的报道中找到K个近邻报道,计算这K个近邻报道所属话题的平均相似度。动态更新话题模型以降低话题漂移问题的影响。经实验证明,本文针对要素关联词对所提出的方法降低了报道关系检测的丢失率、误报率,减少了约10%的错误识别代价。与传统KNN算法相比,本文改进的KNN算法执行效率提高近1倍,错误识别代价降低了9%,因此,本文所提出的改进的KNN算法具有良好的跟踪效果。