论文部分内容阅读
随着互联网的迅猛发展,网络社交平台已经成为人们沟通交流的重要方式,给人们带来了极大的便利。但在各种数据飞速增长的同时垃圾信息也不断的膨胀,垃圾信息严重干扰用户的正常交流,损害用户利益,甚至危害社会安定。这迫切需要净化网络空间,营造健康良好的社交体系。因此,社交平台垃圾信息过滤技术已经成为当前研究普遍关注的热点问题。本文设计并实现了一种基于文本分类算法的社交平台垃圾信息过滤系统,其主要工作如下:(1)阐述了数据爬取的基本原理,对天涯论坛进行数据采集和标注,构建实验语料库,作为实验数据。其中数据采集是通过编写python脚本调用urllib2和BeautifulSoup来读取并分析天涯论坛页面;数据标注是通过人工研判进行文本标注。(2)研究了基于文本分类算法的垃圾信息过滤算法,实现了 k近邻、逻辑回归、支持向量机、随机森林和神经网络五种模型的垃圾信息过滤器,并从过滤性能和过滤器消耗的时间等方面评价五种过滤器的优缺点。实验证明支持向量机算法过滤效果最好,但运行时间相对较长。针对垃圾信息过滤时由于忽略文本结构而导致大量语义信息丢失的问题,本文将一种基于词序列核的支持向量机算法应用于垃圾信息过滤中,而针对原始词序列核无句子概念,本文提出了一种基于句抽取的词序列核,在没有大幅度增加时间和空间复杂度的基础上提高了本实验环境下垃圾信息过滤的准确率。(3)设计并实现了一种社交平台垃圾信息过滤系统(SFS),该系统包括数据导入模块、数据预处理模块、特征选择模块、垃圾信息过滤模块等,其中特征选择模块采用词频-逆文档频率、信息增益、期望交叉熵、互信息四种方法,并对该系统进行了功能测试和性能测试。在该社交平台垃圾信息过滤系统中对帖子内容进行了测试分析,若内容属于美白、减肥、瘦身产品等垃圾广告帖时过滤效果好,若属于中奖、色情、反动言论等垃圾信息帖则过滤效果不好。这可能是因为从天涯论坛爬取的数据中大多是产品广告,而其他类别的垃圾信息很少。通过对社交平台垃圾信息进行分析和过滤,以帮助软件开发者或使用人员尽可能地发现和过滤垃圾内容,减少社交平台中垃圾信息的数量及生存期,从而避免垃圾信息对企业和个人造成重大的损失。