论文部分内容阅读
随着互联网技术的飞速发展,信息的传播与交互方式都有了彻底的改变,网络信息呈爆炸式地增长,成为人们获取讯息的主要途径。面对海量无序的网络新闻,如何对各个话题进行准确且智能化地识别与组织,已经成为网络信息处理领域的重要研究课题。话题检测与跟踪(Topic Detection and Tracking, TDT)正是面向这一课题提出的研究方向,主要任务是自动检测时序新闻报道流中的新话题并实时跟踪已知话题的后续相关报道,将各种新闻信息组织起来再呈现给用户。本文首先针对话题检测(Topic Detection, TD)任务提出基于事件-时间关联模型(Event-Time Relation Model, ETRM)的话题检测方法。ETRM模型依据话题和报道中事件内容及其时间属性的关联特征而构建,依赖时间属性对话题中事件进行切分和提取,而后组织成事件报道集对话题进行描述。新事件检测是话题检测研究中的重要环节,其任务是识别新闻话题的种子事件,并为后续话题跟踪任务提供话题的初始质心。本文基于ETRM对新事件检测任务进行探究,提出改进的话题检测策略:利用时间信息建立话题模型的事件索引;在新事件的判定过程中遵循同时同事的原则并引入时间频率因素;针对论述种子事件的新闻报道,对其相关于旧话题的概率进行相应的调整,以提高新旧话题判定的准确性。经过实验测评,证明基于ETRM的话题检测方法有效改进了话题检测系统的相关性判定效率及其准确率。话题跟踪任务也是话题检测与跟踪领域中重要的应用研究之一,它直接针对时序新闻报道流进行特定新闻话题后续相关报道的识别与挖掘。本文依据新闻报道动态地随时间变化的特性,提出一种基于时间特征演变模型的自适应话题跟踪算法:在传统的向量空间模型中引入特征项的时间信息对话题进行描述,通过特征项的时间差信息计算时间相关度,并将其与余弦夹角公式结合应用,对报道与话题的相关性判定机制进行改进。此外,针对传统的话题跟踪过程中出现的漂移现象,在话题模型特征项自学习更新的同时基于时间相关度进行相应权重调整,借以及时准确地捕捉话题的焦点。通过对静态话题跟踪、动态话题跟踪以及改进后的基于时间特征演变的自适应话题跟踪三种跟踪系统的性能对比测评,证明基于时间特征演变的自适应话题跟踪算法有效提高了系统跟踪话题演化的性能。