新闻热点话题自动发现方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xiaogaojuanJUAN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网最近几年的迅猛发展,网络上的信息越来越多,开始进入网络生活时代。而如何能够快速、准确地找到自己所需要的信息,特别是短时间内爆发的突发性事件,变得越来越迫切,成为普通网民的一个迫切的真实需求。本课题从实际应用的角度出发,主要研究了话题检测与跟踪技术,自动发现网络新闻的热点话题,实时地呈现给用户,方便用户快速获取所需的信息。  本文在前人研究的基础上,针对传统的话题检测与跟踪存在的不足,提出了一个新的网络热点话题自动发现算法HSPKNN,该算法融合了话题检测中报道-报道型(简称为S-S)的较高的准确率和报道-聚类型(简称S-C)的较高的效率,在降低算法时空复杂度的同时,并保证了算法的准确率。首先对新闻报道按时间窗进行划分,并对一个时间窗内的文档利用凝聚式层次聚类算法生成候选话题集合,然后利用SinglePass-KNN组合的算法进行新话题的检测,判断候选话题是属于历史话题的延续还是生成新话题。在话题检测与跟踪的过程中,为了解决话题漂移的问题,引入了动态事件模版的概念。  为了验证HSPKNN算法的有效性,分别在三个新浪专题数据集、搜狗的SogouTDTE语料以及TDT4语料上对算法进行了评测,最小代价值分别是0.274,0.251,0.236。通过TDT实验评测和F-Measure实验对比,证明了本文所提出的话题检测与跟踪算法能得到更好的结果,优于传统的话题检测算法,说明了算法的有效性。  为了能够更好地让用户理解话题的内容,本文针对生成的新话题,提出了基于DCF-FPGrowth组合策略的类簇标签生成算法。该算法能够生成对话题进行高度概括且具有很高的可读性的话题标签,能够让用户通过浏览标签,就可以对话题的内容有个大致的了解。  结合本文所提出的话题检测与跟踪算法,设计并实现了网络新闻热点话题自动发现系统,用于发现和跟踪人们关注度高的热门事件以及短时间内发生的突发性事件。该系统已经在海天园知识服务平台持续运行了两年多,生成了大概10000个新闻热点话题,吸引了不少用户访问量,基本达到实际应用的需求。
其他文献
计算机网络技术的迅猛发展,分布式系统应用的不断拓展,分布式应用对高可靠性和可用性的要求越来越迫切。一个高可用性的系统要求在任何情况下服务不会被中断并且能够提供正确
时间序列是按时间先后顺序将某指标时间点上的数值排列而成的数列,时间序列分析是一种动态数据处理的统计方法,它根据历史数据来判断下一个时间点的数值,从而估计时间序列变
当前的大多数中文分词系统都是基于词典的,但是其不能正确的切分文本中新词(字典中不包括)。这些基于词典的分词系统在处理包含较多新词的文本时,效果较差。  当前新词识别
随着国内投资风气的兴起,越来越多的人关注金融信息。在众多的金融产品中,股票的投资回报率最高,因此关注股票的投资者最多。那么,挖掘出和股票相关的资讯就变得很有必要。而
传统的接触式掌纹识别系统,在手指之间设计了固定杆,用于固定手掌的位置,这样可以减少图像采集过程中由于平移、旋转、扭曲引起的误差和失真,降低了图像处理和定位算法的复杂
脉象蕴含着人体丰富的器官信息,通过切脉即可感知人体脏腑的病理变化。但是长期以来中医理论对脉象的描述主观性太强,较模糊和笼统,医师要熟练掌握脉诊需要长期经验积累。所
随着社会的快速发展,人们对安全的要求越来越高,尤其是在涉及国家安全、金融、政法、电子商务等行业或领域时显得尤为重要。在这种情况下,就需要一种安全可靠的认证方法。生
随着因特网技术的不断发展,网络信息已经逐步成为人们学习、工作和生活中不可或缺的重要组成部分。网络提供了大量的文本信息,如新闻、博客、论坛、微博等。这些非结构化的数
通过Web日志分析挖掘用户的行为模式和访问意图,广泛应用于网站的页面推荐和链接结构优化。随着日志数据规模的增长,日志分析的可扩展性技术研究成为日志分析的研究方向。频
随着网络规模的逐渐增大,所储存数据的逐渐增多,安全性已成为网络建设的第一要素。访问控制作为实现数据保密性和完整性机制的重要手段,被美国国防部可信计算机系统评估标准T