论文部分内容阅读
近年来,随着Web2.0技术的不断发展与成熟,社交网络作为Web2.0时代的代表,逐渐渗透到人们的生活当中,并影响和改变着人们生活的方方面面。从2009年开始,微博作为社交网络的一个重要组成部分,进入了中国用户的视野,并由于其简短写作和快捷发布、实时感和动态感强、用户间互动频繁等特点,被越来越多的用户所青睐。然而,由于微博的发布门槛不高,以及相关的法律体系不完善,致使垃圾信息以及无意义信息在微博平台上大量出现。此外,由于黑客入侵、计算机漏洞、病毒等原因,造成大量的用户账号被黑客劫持,并通过这批账号在短时间内大量地发布同一内容的垃圾信息,从而造成了某种垃圾微博信息的大规模爆发的现象。本文以微博文本作为主要研究对象,并针对垃圾信息大规模爆发的检测需求,对相似微博文本的聚类以及微博文本垃圾信息的判定这两个关键技术进行重点研究。由于传统的simhash算法在微博短文本的聚类效果不佳,本文提出了以文本连续分块的方式提取特征、并以FF-FID(Feature Frequency-Feature In Documents)设置特征权重的方法计算simhash指纹,从而使simhash算法在微博文本中具有较好的聚类效果。此外,针对可读性低文本聚类困难的现象,本文以奇异跳变作为关键特征,并结合K-Means和DBSCAN两种聚类算法的优点,提出了适合一个大规模微博文本聚类算法。实验结果表明,该算法对于用户行为相似以及文本相似的微博文本聚类具有较好的效果。在微博文本的判定上,本文结合微博垃圾信息的定义,从文本可读性以及文本的垃圾属性这两个角度对文本簇进行判定。其中,在文本可读性的判定上,通过提取用户行为特征、构建决策树的方法进行判定;在文本垃圾属性的判定上,则主要针对中文文本进行判定。实验结果表明,采用结合用户行为特征以及文本特征比单纯基于文本特征的垃圾属性判定具有更好的效果。最后,本文在上述研究的基础上,设计并实现了一个针对微博垃圾信息的大规模爆发的检测系统。实验结果表明,该系统基本满足对于垃圾信息爆发的检测需求,并具有较高的实用性。