论文部分内容阅读
因特网这一新媒体的出现,使得人类已经完全摆脱了信息贫乏的枷锁,从而进入一个信息极度丰富的社会。在目前信息爆炸的情况下,信息的来源已不再是关键问题,如何快捷地、准确地获取人们感兴趣的信息才人们需要关注的主要问题。人们希望有一种方法能够帮助他们有效地将孤立的、离散的新闻报道整合起来,以达到能够从宏观上把握一个事件的发展过程以及从微观上了解其细节和各事件之间的相互关系。技术来自需求,话题检测与跟踪(TopicDetection and Tracking,TDT)技术正是应对这种需求而生的。另外,除了要了解事件,人们还希望能够提早地知道一个话题的发展趋势,本文也正是在此需求上,研究话题趋势预测技术,以使得人们能够提早或及时地应对突发事件。本文针对话题检测,提出了基于同义词词林扩展技术技术结合多向量模型进行话题检测的方法。在计算词语相似度时,本文引入同义词词林的扩展技术,使得算法能够从一定的语义角度计算相似度。针对话题的特点,即一个事件通常都是由四部分组成:“什么人”、“什么时间”、“什么地点”、“什么事”。本文提出的多向量话题模型改善话题检测的精度。针对话题跟踪技术难点——话题漂移现象,本文提出了自适应反馈学习策略。在反馈学习中,采用增量的方式,不断完善话题模型,并且在跟踪过程中,每次反馈都构成一个弱跟踪器,而整体话题跟踪模型为所有弱跟踪器的组合,这样就减少了在一些反馈过程中,误反馈造成的影响。实验表明,本文提出的话题检测与跟踪模型明显好于经典的话题检测与跟踪模型。本文针对目前研究较少的话题趋势预测问题,提出了基于灰色系统理论的话题趋势预测模型。详细地分析了话题趋势预测的难点——周期短、样本少、不确定性等,同时给出了经典统计预测模型的相关介绍。最后,在分析了话题特点,以及灰色系统理论在研究贫信息、不确定性问题上的优势之后,提出了灰色预测算法。通过与经典的统计预测模型(指数平滑和ARIMA模型)对比实验,表明了本文提出的预测模型无论从模型复杂度还是预测精度上来说均优于经典的统计预测模型。