微博垃圾信息大规模爆发的检测方法研究及应用

被引量 : 0次 | 上传用户:zl52182
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Web2.0技术的不断发展与成熟,社交网络作为Web2.0时代的代表,逐渐渗透到人们的生活当中,并影响和改变着人们生活的方方面面。从2009年开始,微博作为社交网络的一个重要组成部分,进入了中国用户的视野,并由于其简短写作和快捷发布、实时感和动态感强、用户间互动频繁等特点,被越来越多的用户所青睐。然而,由于微博的发布门槛不高,以及相关的法律体系不完善,致使垃圾信息以及无意义信息在微博平台上大量出现。此外,由于黑客入侵、计算机漏洞、病毒等原因,造成大量的用户账号被黑客劫持,并通过这批账号在短时间内大量地发布同一内容的垃圾信息,从而造成了某种垃圾微博信息的大规模爆发的现象。本文以微博文本作为主要研究对象,并针对垃圾信息大规模爆发的检测需求,对相似微博文本的聚类以及微博文本垃圾信息的判定这两个关键技术进行重点研究。由于传统的simhash算法在微博短文本的聚类效果不佳,本文提出了以文本连续分块的方式提取特征、并以FF-FID(Feature Frequency-Feature In Documents)设置特征权重的方法计算simhash指纹,从而使simhash算法在微博文本中具有较好的聚类效果。此外,针对可读性低文本聚类困难的现象,本文以奇异跳变作为关键特征,并结合K-Means和DBSCAN两种聚类算法的优点,提出了适合一个大规模微博文本聚类算法。实验结果表明,该算法对于用户行为相似以及文本相似的微博文本聚类具有较好的效果。在微博文本的判定上,本文结合微博垃圾信息的定义,从文本可读性以及文本的垃圾属性这两个角度对文本簇进行判定。其中,在文本可读性的判定上,通过提取用户行为特征、构建决策树的方法进行判定;在文本垃圾属性的判定上,则主要针对中文文本进行判定。实验结果表明,采用结合用户行为特征以及文本特征比单纯基于文本特征的垃圾属性判定具有更好的效果。最后,本文在上述研究的基础上,设计并实现了一个针对微博垃圾信息的大规模爆发的检测系统。实验结果表明,该系统基本满足对于垃圾信息爆发的检测需求,并具有较高的实用性。
其他文献
近年来,我们的生存环境日益恶化但随着人们对建筑环保和节能认识的提高,世界各国陆续掀起了绿色风暴,纷纷研究和建造绿色住宅。秸秆草砖建筑就是传统的绿色建筑之一,早在北美大移
摘要:部门绩效在绩效体系中起着承上启下的关键作用,是决定着企业绩效管理工作成败的中心环节。本文在对绩效管理的基础理论和方法进行系统总结、归纳的基础上,针对ZELC公司部
糖胺聚糖是蛋白聚糖中聚糖部分的总称,能调节多种生长因子信号通路。糖胺聚糖通过与蛋白相互作用在发育、保健和疾病中扮演多个角色。猪是药用糖胺聚糖最常见来源之一,但是目前
1978年开始的改革开放已走过了30多年,伴随着经济和社会大踏步的前进,中国金融业在经济发展中取得了巨大的成就,但由于城乡二元体制以及政策等诸多因素的影响,农村金融业改革一直
背景诱导性多能干细胞(iPSC)是通过对体细胞重编程得到的多能干细胞,具有与胚胎干细胞类似的自我更新和多向分化潜能。Takahashi等采用逆转录病毒载体分别向鼠和人的成纤维细胞
进入新世纪以来,石油产品越来越深入人们的生活之中。石油提炼的副产品--塑料的发展和应用速度亦随之加快,塑料管道被广泛应用于生活给排水、燃气输送、地热供暖和电线光缆护
目的探讨待分类的精神病性和非精神病性精神障碍临床特征.方法对待分类的精神病性和非精神病性精神障碍与精神分裂症临床资料进行对比分析.结果待分类的精神病性障碍与精神分
简单分析了德国浪漫主义作曲家舒曼艺术歌曲创作方面的主要特征及其贡献。
期刊
~~
近些年伴随着我国经济的高速发展,计算机、信息技术、过程控制等技术也日新月异,DCS等各种控制系统在流程工业中的应用也越来越普遍。但这些系统都只是针对整个生产过程中单