论文部分内容阅读
身处网络时代网络上的各种信息时刻影响着人们对于各种事物的认知。然而这些信息并不完全都是正确无误的。事实上其中有相当一部分是以达到某种利益需要为目的的虚假信息,尤其是随着互联网的蓬勃发展,发布虚假信息形成了黑色产业。所谓的“网络水军”正不断侵蚀着网络的健康,严重影响了人们对于事物的正确认识,甚至在某些时候造成了十分恶劣的社会影响。所以如何识别网络中虚假信息和虚假信息发布者是维持互联网稳定乃至社会稳定的一个重要课题。近年来研究者对于识别虚假信息和虚假信息发布者的研究大多集中在微博,Twitter和Facebook之类的社交网络,对于网络论坛的研究较少,所以本文将重点研究如何识别网络论坛中的虚假评论者。为了有效地识别出虚假评论者,我们采用了从易到难,二阶段的识别方案来识别虚假评论者。在第一阶段采用基于机器学习的梯度提升决策树模型来识别初级虚假评论者,该模型的识别准确率达到了98.1%,查全率和查准率也分别达到了99.1%和97.2%。接着在第二阶段使用该模型识别出更多的虚假评论者后结合已识别的虚假评论者使用PageRank等算法计算出三个用户评分,并在此基础上进一步使用聚类分析来识别出更多的虚假评论者尤其是资深虚假评论者。在实验的第二阶段我们在5000多个评论者中又识别出了78个虚假评论者,其中大约有15个资深虚假评论者,效果比较理想。具体方案是我们先对评论内容使用基于词典的方法进行了主题情感分析,得到了每个评论关于各个主题的情感向量,并以此为基础统计得到每个评论者的最高正面/负面品牌情感值在内的多个情感特征并结合用户基本特征和评论的时间窗口特征等作为第一阶段所构建模型的特征输入。在第二阶段计算用户关系图上的用户评分时主题情感向量也被用于计算两个评论的情感距离,我们通过情感距离来判别发表这两个评论的评论者是否是支持关系,反对关系或者是中性关系,并以此为基础构建用户支持关系图,用户反对关系图以及和虚假评论者合谋关系图。接着我们在这三个关系图上使用PageRank等算法计算得到每个评论者的用户支持度,用户反对度以及和虚假评论者的合谋度这三个用户评分。最后使用K-Means聚类来分析这三个用户评分并识别出更多的虚假评论者尤其是资深虚假评论者。最终的方案综合运用了多种Web挖掘技术,包括了分词标注,文本情感分析,有效特征分析,机器学习分类模型,PageRank算法以及聚类算法等,有效地识别出了网络论坛中的虚假评论者。