BBS网络热点话题发现

被引量 : 1次 | 上传用户:sycamorelee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国互联网信息技术发展迅速,互联网资源日益繁杂,而网络中海量的数据信息资源却没有被充分利用。互联网资源主要以HTML文本形式表示,因此采用文本挖掘技术可以高效低获取网络信息资源。作为文本挖掘技术的重要组成部分,文本聚类算法是目前国内外学者研究的热点和难点。本文采用“中华网BBS”中8个版块的数据集为研究对象,开展了对两种经典文本聚类算法Single-Pass和K-means的应用研究,分析了两种算法存在的不足并对其进行改进,得到了可靠的数据结果,证明了改进算法的可行性。主要工作如下:1.详细介绍了BBS文本数据(树状结构和表状结构)的采集过程,着重阐述了BBS文本的预处理过程,包括特征项的选取、BBS数据清洗以及BBS文本表示,获得了文本向量特征项的权值矩阵。2.详细介绍了经典增量式聚类算法Single-Pass的特点,针对该算法中“聚类质心不唯一”的缺陷提出“设定唯一聚类质心”的改进方案,降低了算法的时间复杂度;针对“算法聚类中心随机性强”的不足提出了“不断优化聚类中心”的改进方案,使得聚类中心的代表性更强。最后,基于“中华网BBS”文本数据对改进后的算法进行验证、分析,并与经典Single-Pass算法的聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效。3.详细介绍了经典划分式聚类算法K-means的特点,针对该算法中“聚类中心难以确定”的不足提出“选择最优聚类质心”的改进方案,改进后的算法得到了可靠的聚类质心。最后,基于“中华网BBS”文本数据对改进后的算法进行验证、分析,并与经典K-means算法聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效。4.在改进后的Single-Pass和K-means算法的数据预处理步骤中设置“回收类”,用于存放BBS中的无关帖,深入分析表明“回收类”中的无关帖包括广告贴、垃圾帖、图片贴等,并着重阐述了“回收类”中“其他话题贴”演化为未来“热帖”的可能。
其他文献
谈到中国儿童文学发展史,张天翼是一个无法绕过去的名字。他以炽烈真诚的童心,顽强不屈的精神,从二十世纪三十年代到五十年代,一直笔耕不辍,创作出大量优秀的儿童文学作品。
层状结构的碳材料具有良好的润滑作用,可作为固体润滑剂单独使用也可作为润滑油添加剂,提高润滑油的摩擦学性能,属于环境友好型添加剂。本文研究了两种层状碳材料的制备及其
作为傩文化的重要精神符号与物质载体,傩戏面具反映了一个地区和民族的宗教信仰、民俗风情以及审美观念等。贵州傩戏面具至今仍保存完好,主要是因为贵州所处的相对封闭的自然
同性恋亚文化对父权制下异性恋控制话语霸权的传统思维提出了种种质疑与挑战,而同性恋电影则将这些质疑与挑战投射于银屏,让更多人去了解同志族群的生活与情感。周美玲导演是
房地产营销在目前由卖方市场逐步转向买方市场的竞争巨大的现今市场新形势下,房地产市场跌宕起伏,国家宏观调控政策频频出台,房地产市场进入了激烈竞争的时代,房地产营销策划
本课题是关于林芙美子文学中女性主义思想的研究。在日本近代史上,从明治末期到二战结束这半个世纪的时间既是东西文化发生激烈碰撞的时期,也是日本“近代自我”逐渐得以确立的
研究目的:本研究主要通过对非体育专业普通大学生进行不同强度一次性登山运动负荷方案,分析比较相同强度不同水平(性别、体适能水平)登山者的情绪状态变化,不同强度同一水平(
通感,就是把人的多种官能感觉转移沟通,在描写事物的过程中,彼此交互运用的艺术表现形式。由于“通感”是感觉的转移沟通,也有人把它称作“移觉”。本文笔者谈谈通感在写作实
本论文主要研究的是教材“连贯性”问题。分析教材“连贯性”问题需要以“核心概念”为支点,找出它们之间的联系以及“核心概念”与“先前概念”和“相关概念”之间的联系。
改革开放以来,科技创新一直受到高度重视。1988年,邓小平提出“科学技术是第一生产力”。党的十八大提出,“科技创新是提高社会生产力和综合国力的战略支撑,必须摆在国家发展