BBS网络热点话题发现

被引量 : 1次 | 上传用户：sycamorelee

【摘要】

：

我国互联网信息技术发展迅速,互联网资源日益繁杂,而网络中海量的数据信息资源却没有被充分利用。互联网资源主要以HTML文本形式表示,因此采用文本挖掘技术可以高效低获取网

【作者】

：

马国栋

【发表日期】

：

2014年01期

【关键词】

：

Web数据挖掘话题发现 Single-Pass K-means

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

我国互联网信息技术发展迅速,互联网资源日益繁杂,而网络中海量的数据信息资源却没有被充分利用。互联网资源主要以HTML文本形式表示,因此采用文本挖掘技术可以高效低获取网络信息资源。作为文本挖掘技术的重要组成部分,文本聚类算法是目前国内外学者研究的热点和难点。本文采用“中华网BBS”中8个版块的数据集为研究对象,开展了对两种经典文本聚类算法Single-Pass和K-means的应用研究,分析了两种算法存在的不足并对其进行改进,得到了可靠的数据结果,证明了改进算法的可行性。主要工作如下：1.详细介绍了BBS文本数据(树状结构和表状结构)的采集过程,着重阐述了BBS文本的预处理过程,包括特征项的选取、BBS数据清洗以及BBS文本表示,获得了文本向量特征项的权值矩阵。2.详细介绍了经典增量式聚类算法Single-Pass的特点,针对该算法中“聚类质心不唯一”的缺陷提出“设定唯一聚类质心”的改进方案,降低了算法的时间复杂度；针对“算法聚类中心随机性强”的不足提出了“不断优化聚类中心”的改进方案,使得聚类中心的代表性更强。最后,基于“中华网BBS”文本数据对改进后的算法进行验证、分析,并与经典Single-Pass算法的聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效。3.详细介绍了经典划分式聚类算法K-means的特点,针对该算法中“聚类中心难以确定”的不足提出“选择最优聚类质心”的改进方案,改进后的算法得到了可靠的聚类质心。最后,基于“中华网BBS”文本数据对改进后的算法进行验证、分析,并与经典K-means算法聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效。4.在改进后的Single-Pass和K-means算法的数据预处理步骤中设置“回收类”,用于存放BBS中的无关帖,深入分析表明“回收类”中的无关帖包括广告贴、垃圾帖、图片贴等,并着重阐述了“回收类”中“其他话题贴”演化为未来“热帖”的可能。

其他文献

张天翼儿童文学创作研究

谈到中国儿童文学发展史,张天翼是一个无法绕过去的名字。他以炽烈真诚的童心,顽强不屈的精神,从二十世纪三十年代到五十年代,一直笔耕不辍,创作出大量优秀的儿童文学作品。

学位

张天翼儿童文学创作艺术来源比较研究弊端

片状纳米石墨和碳质中间相作为润滑油添加剂的摩擦学性能研究

层状结构的碳材料具有良好的润滑作用,可作为固体润滑剂单独使用也可作为润滑油添加剂,提高润滑油的摩擦学性能,属于环境友好型添加剂。本文研究了两种层状碳材料的制备及其

学位

片状纳米石墨润滑油摩擦碳质中间相

贵州傩戏面具的抢救、保护与开发

作为傩文化的重要精神符号与物质载体,傩戏面具反映了一个地区和民族的宗教信仰、民俗风情以及审美观念等。贵州傩戏面具至今仍保存完好,主要是因为贵州所处的相对封闭的自然

期刊

贵州傩戏面具“撮泰吉”傩堂戏地戏

光影中的述说与关照

同性恋亚文化对父权制下异性恋控制话语霸权的传统思维提出了种种质疑与挑战,而同性恋电影则将这些质疑与挑战投射于银屏,让更多人去了解同志族群的生活与情感。周美玲导演是

学位

同志三部曲主题叙事基调创作风格人文关照

成都航天·城上城一期营销策略研究

房地产营销在目前由卖方市场逐步转向买方市场的竞争巨大的现今市场新形势下,房地产市场跌宕起伏,国家宏观调控政策频频出台,房地产市场进入了激烈竞争的时代,房地产营销策划

学位

房地产调控政策SWOT分析定位营销策略

同时代女性的言说

本课题是关于林芙美子文学中女性主义思想的研究。在日本近代史上，从明治末期到二战结束这半个世纪的时间既是东西文化发生激烈碰撞的时期，也是日本“近代自我”逐渐得以确立的

学位

女性主义思想女性主体身份女性话语权男权秩序

不同强度一次性登山运动对普通大学生身心状态影响的比较研究

研究目的：本研究主要通过对非体育专业普通大学生进行不同强度一次性登山运动负荷方案,分析比较相同强度不同水平(性别、体适能水平)登山者的情绪状态变化,不同强度同一水平(

学位

不同强度一次性登山大学生身心状态

浅议写作中通感手法的运用

通感,就是把人的多种官能感觉转移沟通,在描写事物的过程中,彼此交互运用的艺术表现形式。由于“通感”是感觉的转移沟通,也有人把它称作“移觉”。本文笔者谈谈通感在写作实

期刊

写作通感比喻拟人

教材“连贯性”评价工具设计及应用

本论文主要研究的是教材“连贯性”问题。分析教材“连贯性”问题需要以“核心概念”为支点,找出它们之间的联系以及“核心概念”与“先前概念”和“相关概念”之间的联系。

学位

连贯性遗传核心概念先前概念相关概念概念图

中国企业的技术资产剩余索取权研究

改革开放以来,科技创新一直受到高度重视。1988年,邓小平提出“科学技术是第一生产力”。党的十八大提出,“科技创新是提高社会生产力和综合国力的战略支撑,必须摆在国家发展

学位

技术资产剩余索取权创新源技术创新制度

BBS网络热点话题发现

其他学术论文