基于聚类分析的网络论坛热点话题检测

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:JWPMP
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
话题检测技术作为话题检测与追踪的重要组成部分,目的是要解决从文本信息流中自动识别各个未知的话题,并且能够在线发现新话题。在话题检测技术中,热点话题检测是为了识别特定时间段内报道频繁、适时、重要的话题。传统的话题检测技术大多面向新闻网站语料进行所有话题的检测,而本文主要研究面向网络论坛的热点话题检测。本文对网络论坛的文本组织形式进行深入分析,重点研究面向网络论坛话题检测的文本预处理方法和网络论坛热点话题检测算法,取得了以下几个方面的研究成果:(1)提出一种基于文档树的帖子信息抽取算法。通过研究常用的信息抽取算法,并分析了网络论坛帖子的页面结构,给出了帖子文档树的构建方法和帖子信息抽取的规则描述。实验结果表明,该算法能够有效地提取帖子内容信息和结构特征。(2)提出一种面向网络论坛短文本的特征选择算法。针对网络论坛短文本的特点,提出了基于TF*PDF的特征选择算法。实验结果表明,相对于传统的特征提取方法,本文的算法能够得到更好的网络论坛短文本聚类效果。(3)提出一种基于时间线分析的增量聚类算法。与传统的聚类算法相比,该算法在文本聚类的过程中结合了话题生存周期模型。实验结果表明,该算法能够有效地优化话题检测的结果集,提高话题检测的质量。(4)提出一种基于话题关注度和用户参与度的热度评分算法。通过在热度评分算法中融入了话题关注度和用户参与度的计算,有效地与文本聚类算法进行结合。实验结果表明,该算法能够综合评估话题热度,形成热点话题排序。基于上述研究成果,本文设计了网络论坛热点话题检测系统,能够有效地对网络论坛进行舆情监控、及时掌握各个时期民众关心的热点话题。
其他文献
随着多媒体技术和存储技术的发展,互联网上的视频数据在不断地增长和传播,如何从庞大的视频数据中快速检索到人们感兴趣的视频内容,是亟待解决的问题。视频事件检测与标注工
人脸在人类的交流中起着重要的信息表达功能,人脸呈现的表情传递着人类复杂的情绪和感受。但由于人脸的生理学结构非常复杂,计算机从人脸中提取的特征常常难以直接利用。本文
近年来,在Hadoop平台上集成FPGA进行算法加速的研究受到了广泛关注。通过利用Hadoop将计算过程在节点之间并行,以及在单个计算节点上利用FPGA硬件加速,这些研究对特定算法的
无线传感器网络集成了传感器、嵌入式计算、网络和无线通信四大技术,它在军事、医疗、家用等多个领域均有广泛的应用,被认为是21世纪最重要的技术之一。无线传感器网络通常运
近年来,可视化技术在医学领域发挥越来越重要的作用。连续扫描的二维医学图像通过可视化技术三维重建,能够提供更丰富的解剖学和病理学信息。彩色体数据一般来源于人体的生理
不同领域的研究者们提出了大量的理论和模型来解释个体情感的产生、变化和传播方式。随着社交网络的迅猛发展,其简单、实时、高效、开放的信息发布特点为研究者们提供大量的
随着桌面虚拟化技术的发展,虚拟环境下计算机外围设备的应用开始备受关注。人们希望在虚拟计算环境中,应用程序可以使用远程USB摄像头进行聊天,或者使用远程USB打印机打印本
随着软件应用的不断深入,软件可信性受到了高度关注,形成了围绕“软件可信性”的新的研究热点。软件可信评估是可信性研究中的一个基本问题,在软件可信性保障活动中占据了极
近些年来,影响力最大化问题已经是数据挖掘领域炙手可热的研究方向,并且普遍应用于社会网络分析。然而,现有大部分研究在寻找最具影响力的种子节点的同时忽略了一个事实,那就
P2P因其独特的优势逐渐成为Internet中重要的组成部分,但是随着P2P技术的广泛应用,暴露出严重的安全和自私问题:(1)安全问题。由于P2P网络缺少第三方的安全监管,也没有相应的