基于演化理论的BBS热点话题发现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:luojuncad
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
BBS是目前最流行的网上讨论场所之一。它越来越受到网络用户的喜爱,特别在中国更加受到广大网民的欢迎。每天,在BBS上会产生大量新的讨论内容,使得人们对热点话题的获取越来越困难。为了解决这个难题,我们深入研究了BBS帖子发布、用户参与、话题讨论等各项特点,并提出了基于演化理论的BBS热点话题发现方法。首先,BBS中语言更加口语化、非正规化,大量的缩写、简写充斥于内容之间,而且有些帖子的内容根本没有实际的含义,即使是BBS经历丰富的用户也很难理解其中的意思。我们提取了这些无效帖子的特征进行过滤,保障了后续话题内容提取的质量。其次,BBS具有独特的话题讨论方式。经研究发现,虽然每天会产生大量的讨论帖子,但是大多数帖子讨论的只是少量几个话题。当社会突发事件产生时,用户可能会从不同的侧面新建主题进行讨论,或者BBS中有争议的主题出现时,用户也会新建主题进行不同观点间的切磋。本论文采用增量聚类技术对同一话题的主题内容进行了有效的组织。最后,BBS讨论存在话题偏移现象。基于帖子位置信息的主题向量构建方法很好的解决了此难题。为了找出符合要求的热点话题,我们明确定义了BBS热点话题的四大特征:帖子数量大,质量高,内容内聚度高,突发性特征明显。围绕此目标,我们提出的基于演化理论的BBS热点话题发现方案主要分为以下三个步骤。首先,对需要处理的BBS数据进行预处理,并通过增量单边聚类的方法获得候选话题。其次,基于这些抽取得到的话题,我们使用演化理论来计算每个话题的热度。以上两个步骤都是按时间增量进行的。最后,根据热点话题的定义调整参与排序的话题,然后根据每个话题的能量值按照降序排列,便可得到我们需要的BBS热点话题。在真实的BBS数据上进行的实验证明我们的方法是相当有效的。首先,基于演化理论的热点话题发现方法找到的热点更加全面。其次,由于深入研究了话题在BBS中的讨论特点,本方法还能找到传统方法无法发现的热点话题。再者,本方法采用的能量排序方法保证了所发现的热点话题具有更强的时效性。最后,本方法不仅可以很好的发现短时间兴起的热点话题,同时对延续时间较长的热点话题也十分有效。
其他文献
物流行业作为一个新兴的行业,正处于蓬勃发展的时机。物流公司的业务支撑系统中逐渐累积了大量的数据,简单报表工作已经无法满足公司管理层对于数据分析的需求。公司管理层迫切
在开放教育这种分散式的学习模式下,教学管理工作是保证良好教学质量最重要的一个环节,教学管理是否到位直接关系着教学的质量。为配合中央电大“课程超市”的服务理念、提高天
随着数字时代的来临,数据的存储和处理工作越来越得到重视。数据挖掘技术作为一种数据处理方法需要对数据进行有效的预处理,而预处理过程中对存储在数据库中的缺失数据进行推
嵌入式操作系统已经被广泛的应用于各种嵌入式设备,由于嵌入式设备有着数据实时采集、现场控制、高危环境等特殊应用背景,嵌入式操作系统对实时性都有一定的要求。随着嵌入式
自二十世纪90年代以来,关于Agent和多Agent的系统已经得到许多人的关注和研究。当前对于智能Agent主体,已经由传统的BDI(信念-愿望-意图)逻辑发展到了社会概念的BDI逻辑,这使得A
度量是机器学习领域中的热点问题之一,很多机器学习算法的性能都严重依赖于数据的度量(如KNN算法)。度量学习作为一种学习与特定任务以及数据相关的度量方法已被广泛用于分类
航迹规划是一项实现无人飞行器自动导航的关键技术。在现代战争中,作战环境日益复杂,各种防空系统的性能日益提高,要实施对作战目标的有效打击,依靠一架飞行器单独执行并成功
图像编辑技术自上世纪50年代出现后,随着数字多媒体硬件和软件技术的兴起而迅猛发展,为人们创建和处理图像提供了丰富且便捷的方式。而图像编辑传播技术作为该领域内的经典问
上世纪九十年代以来,Internet以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等。为了在这些海量的、异质的、非结构化的数据
21世纪,计算机技术发展越来越快,对操作系统的研究也越来越深入,微内核技术作为一个重要的研究方向,已受到研究人员越来越多的重视,成为了一个研究热点。   本文首先介绍了微内