论文部分内容阅读
网络论坛水军是活跃在网络论坛中一个或一群人,他们通过话题炒作等行为影响网络舆情走向。其主要手段就是在主流论坛中大量发帖,回帖造势。由于这些网络论坛水军的行为往往会伴随流言制造、事件真相掩盖甚至引发针对某些事件的大规模动乱,因此有必要对其特征和行为开展深入挖掘,然后形成合适的方法和标准在海量的论坛信息中检测出这些水军甚至是其所属的水军公司或组织。这对打击网络造谣犯罪、防止网络舆情极端爆发进而影响社会稳定等具有重要意义和实际应用价值。目前国内外基于帖子内容的网络论坛水军检测和分析技术尚不成熟。本文设计了一个基于用户行为和分类方法的网络论坛水军检测系统。首先在模拟登录论坛后使用宽度优先搜索的聚焦爬虫程序"浏览"相关论坛页面,下载相关的论坛数据并结构化存储在数据库中,然后从这些数据中提取出8个能够用于分辨正常论坛账号和水军账号的特征,接着用一种辅助人工标记的方法标记训练集和测试集,并使用C4.5决策树算法构建分类模型,对网络论坛用户是否是水军做出判断预测,将预测结果分别与人工主观判断结果和辅助标记结果比较后取得了 78.00%和89.49%的预测准确度。该实验结果证明了本文提取的论坛用户行为特征具有较高的分辨力和有效性,同时得出基于用户行为的网络论坛水军检测方法可以有效地检测论坛中的网络水军的结论。第一部分是绪论部分,主要包括对网络论坛水军的产生、发展和网络论坛水军检测意义的介绍以及对网络论坛水军检测研究的国内外现状的概述;第二部分简单介绍了本文涉及到的关键技术和方法;第三部分详细阐述了论坛数据的采集和存储方法设计,包括网络论坛模拟登录的实现、聚焦爬虫程序的设计和数据库设计;第四部分主要分析了水军检测相关研究中用户特征的提取方法并重点阐述了针对本课题研究对象的网络论坛用户行为特征方法;第五部分设计了一个基于用户行为和分类方法的网络论坛水军检测系统,并利用该系统实现了对网络论坛水军的检测和识别;最后是对本文的总结和对该领域未来研究方向的一些展望。