论文部分内容阅读
当代是共享信息的时代,随手移动端的发展和网络普及化,微博成为人们生活中一种不可或缺获取信息的便捷途径,它可以实现与他人分享、交流、互动信息等功能。然而随着微博消息数量的日益膨胀,突发消息和垃圾消息会在微博平台上的扩散速度更快,传播更广。如何快速有效的检测微博的中异常消息已经成为微博舆情监管领域重要研究的方向。突发消息检测的研究重点是微博中合理调整滑动窗口的大小以及合理选取阈值的大小。基于此问题,文中是基于时间序列方式的微博滑动窗口,针对固定窗口检测突发消息的灵敏程度小,阈值的固定化不能适应消息变化快慢等缺点,本文结合滑动窗口算法和自适应阈值算法,提出自适应滑动窗口及判定阈值微博突发消息检测研究。该模型考虑到网络流量实时性对窗口和阈值要求灵活的特点,通过实验数据选择时间跨度长短不同的微博消息,用对比方式验证自适应滑动窗口比固定窗口检测消息的时间要快、要合理,更好分析突发消息波动的趋势。用对比实验验证自适应阈值的正确性,更好的预测微博突发消息的起伏变化。在微博检测突发消息的过程中,检测的消息中会存在垃圾消息。如何将数据信息提取出来服务于用户,最终目的是要净化垃圾信息。根据人工标注和匹配规则方式对垃圾消息分类的识别适应性差的问题,因此本文提出融合KNN和SVM的微博垃圾消息检测算法研究。该算法采用有监督学习,判断样本点到决策平面的距离,对于分类模糊的样本点进行再次分类。通过实验证明,融合方法能有效提高垃圾检测的正确性,有效识别垃圾的问题。综上所述,本文重点分析影响突发消息检测的滑动窗口和阈值两关键点,改进系统检测突发消息敏感性。并基于融合分类器,提高垃圾消息检测的效率。通过实验验证了自适应滑动窗口算法和阈值算法及融合算法的正确性和有效性。