论文部分内容阅读
虚假评论检测技术是指可以从评论数据中自动区分真实评论和虚假评论的技术。随着电子商务的快速发展,人们从线下购物逐渐转变为线上购物,并在一些社交平台分享他们对产品和服务的看法或评论。然而,一些不法商家为了利润雇佣水军在社交平台上进行欺诈评论以此来误导消费者。这种问题不仅会给消费者带来损失,还会影响电子商务平台的良性发展。尽管研究工作者已经提出大量虚假评论检测方法,但仍存在一些问题亟待解决。包括(1)现实情况下评论数据集存在常见的样本不均衡现象,即正常评论数量远高于虚假评论数量,使得模型更多地学习了正常评论数据特征,而对虚假评论特征识别效果不佳。(2)同时,面对群体性、相互关联性的水军团体,基于传统机器学习的检测方法仅依靠评论自身的相关特征输入分类器进行分类,而这些特征容易被水军伪装,往往忽略水军团体间难以伪装的网络结构关系信息。(3)其次,在现实庞大的评论数据集构成的网络中,评论节点的邻居节点数量庞大。这些邻居节点中存在大量的噪声节点,全部聚合邻居节点也会聚合了这些噪声节点的信息,从而使得检测效果变差。针对上面提出的问题,本文提出基于对比自监督学习和GraphSAGE(Graph Sample and Aggregate,简称GraphSAGE)的虚假评论检测方法以及基于多关系异构图和注意力机制的虚假评论检测方法,本文的主要工作与贡献点可以概况如下:首先,本文提出了基于GraphSAGE和对比自监督学习的虚假评论检测模型,解决了现实评论数据集庞大难以处理以及数据集中存在的样本不均衡问题。该方法通过构建单一关系图,利用图神经网络GraphSAGE中采样和聚合的方式,可以高效地处理由大规模评论数据集构成的图结构数据。随后,GraphSAGE将采样后的邻居节点信息进行聚合后,对每个节点生成一个固定长度的向量表示。接着,本研究设计了对比自监督学习模块,对聚合邻居节点信息的目标节点向量再次进行空间约束,利用节点标签数据,拉近同类型节点空间距离,拉远不同类型节点空间距离。各类别节点类内部集聚、类间拉远,使得各类别节点向量更具区分度,有利于解决数据集中样本不均衡现象,达到更好的检测分类效果。其次,本文提出了基于多关系异构图和注意力机制的虚假评论检测模型,解决了虚假评论者中存在的特征伪装、关系伪装以及邻居噪声节点问题。该模型对构建了多关系异构图替代上述基于GraphSAGE和对比自监督学习的虚假评论检测方法中构建的单一关系图,使得更全面地挖掘水军团体间的图结构信息,一定程度上消除特征伪装和关系伪装问题,减少由于某一关系图自身问题导致的错检或漏检。另外,该模型设计基于标签感知的余弦相似度方法过滤目标节点的一些邻居噪声节点,使得目标节点保留潜在的同类型邻居节点参与聚合过程。在聚合过程中,本研究设计新的多关系图图中、图间的消息聚合函数。这些消息聚合函数引入了注意力机制,可以聚合更加有效的邻居节点信息,优化图神经网络消息聚合效果,使得检测效果提升。本文在公开的真实评论数据集Yelp和Amazon进行了大量的实验验证,选用Recall以及AUC指标进行实验效果对比评估。实验效果表明,本文提出的两种模型达到或超越绝大部分虚假评论检测基准模型,并且实用性更强。