论文部分内容阅读
随着经济的发展,人们越来越关注健康问题,网络作为现代化信息提供的主要来源,可以让人们快速的获取健康知识,但是随着网络信息成爆炸式增长,如何快速准确地选择自己需要的信息越来越成为人们关注的焦点,特别是一些健康热点信息,经常零散的分散在网络的各个地方,让我们很难了解一些事件发生的原因、经过和结果,所以,如何让人们第一时间准确的了解到正在发生的健康热点成了亟待解决的问题。话题检测与跟踪(TDT)一直是国内外网络信息处理研究的一个热点,具有广泛的应用前景。 针对上述问题,本文通过TDT技术对信息分类整理,实现了健康领域新闻热点发现与跟踪系统,此系统实时收集健康信息,用分类技术首先分门别类,然后针对每个类别,使用聚类技术进行热点话题发现,并且完成对话题的跟踪。最终以界面的形式呈现给用户,使用户可以根据自己的爱好选择感兴趣的事件,从而方便了人们快速了解健康领域各个热点事件以及来龙去脉。本文主要分4个方面进行了介绍: (1)使用基于类别特征域的KNN分类,对信息进行分门别类,有助于后续聚类中精度的提高。 (2)利用聚类技术,在类内进行热点发现与跟踪,此模块针对聚类过程中的特征高维问题,分析了健康领域的特性,提出了一种基于类别特征和领域词典的动态特征提取方法。 (3)针对健康领域的特点,在相似度计算时,提出了一种基于领域词的分解的向量空间模型表示方法。 (4)结合上述动态的特征选择方法和改进的文档向量表示方法,最终用其完成了疾病和曝光两个领域的热点检测与跟踪。 在话题检测与跟踪评测中,把本文的基于动态的类别特征域和领域主题词的的特征提取方法与基于疾病名称的文档向量表示方法运用于凝聚层次聚类和AP聚类,与不使用上述方法的凝聚层次聚类和AP聚类做了对比试验。通过实验证明改进的系统取得了更好的成效。