论文部分内容阅读
随着互联网最近几年的迅猛发展,网络上的信息越来越多,开始进入网络生活时代。而如何能够快速、准确地找到自己所需要的信息,特别是短时间内爆发的突发性事件,变得越来越迫切,成为普通网民的一个迫切的真实需求。本课题从实际应用的角度出发,主要研究了话题检测与跟踪技术,自动发现网络新闻的热点话题,实时地呈现给用户,方便用户快速获取所需的信息。 本文在前人研究的基础上,针对传统的话题检测与跟踪存在的不足,提出了一个新的网络热点话题自动发现算法HSPKNN,该算法融合了话题检测中报道-报道型(简称为S-S)的较高的准确率和报道-聚类型(简称S-C)的较高的效率,在降低算法时空复杂度的同时,并保证了算法的准确率。首先对新闻报道按时间窗进行划分,并对一个时间窗内的文档利用凝聚式层次聚类算法生成候选话题集合,然后利用SinglePass-KNN组合的算法进行新话题的检测,判断候选话题是属于历史话题的延续还是生成新话题。在话题检测与跟踪的过程中,为了解决话题漂移的问题,引入了动态事件模版的概念。 为了验证HSPKNN算法的有效性,分别在三个新浪专题数据集、搜狗的SogouTDTE语料以及TDT4语料上对算法进行了评测,最小代价值分别是0.274,0.251,0.236。通过TDT实验评测和F-Measure实验对比,证明了本文所提出的话题检测与跟踪算法能得到更好的结果,优于传统的话题检测算法,说明了算法的有效性。 为了能够更好地让用户理解话题的内容,本文针对生成的新话题,提出了基于DCF-FPGrowth组合策略的类簇标签生成算法。该算法能够生成对话题进行高度概括且具有很高的可读性的话题标签,能够让用户通过浏览标签,就可以对话题的内容有个大致的了解。 结合本文所提出的话题检测与跟踪算法,设计并实现了网络新闻热点话题自动发现系统,用于发现和跟踪人们关注度高的热门事件以及短时间内发生的突发性事件。该系统已经在海天园知识服务平台持续运行了两年多,生成了大概10000个新闻热点话题,吸引了不少用户访问量,基本达到实际应用的需求。