基于多关系异构图表征的虚假评论检测方法研究

来源 :南京财经大学 | 被引量 : 0次 | 上传用户:gaolch003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
虚假评论检测技术是指可以从评论数据中自动区分真实评论和虚假评论的技术。随着电子商务的快速发展,人们从线下购物逐渐转变为线上购物,并在一些社交平台分享他们对产品和服务的看法或评论。然而,一些不法商家为了利润雇佣水军在社交平台上进行欺诈评论以此来误导消费者。这种问题不仅会给消费者带来损失,还会影响电子商务平台的良性发展。尽管研究工作者已经提出大量虚假评论检测方法,但仍存在一些问题亟待解决。包括(1)现实情况下评论数据集存在常见的样本不均衡现象,即正常评论数量远高于虚假评论数量,使得模型更多地学习了正常评论数据特征,而对虚假评论特征识别效果不佳。(2)同时,面对群体性、相互关联性的水军团体,基于传统机器学习的检测方法仅依靠评论自身的相关特征输入分类器进行分类,而这些特征容易被水军伪装,往往忽略水军团体间难以伪装的网络结构关系信息。(3)其次,在现实庞大的评论数据集构成的网络中,评论节点的邻居节点数量庞大。这些邻居节点中存在大量的噪声节点,全部聚合邻居节点也会聚合了这些噪声节点的信息,从而使得检测效果变差。针对上面提出的问题,本文提出基于对比自监督学习和GraphSAGE(Graph Sample and Aggregate,简称GraphSAGE)的虚假评论检测方法以及基于多关系异构图和注意力机制的虚假评论检测方法,本文的主要工作与贡献点可以概况如下:首先,本文提出了基于GraphSAGE和对比自监督学习的虚假评论检测模型,解决了现实评论数据集庞大难以处理以及数据集中存在的样本不均衡问题。该方法通过构建单一关系图,利用图神经网络GraphSAGE中采样和聚合的方式,可以高效地处理由大规模评论数据集构成的图结构数据。随后,GraphSAGE将采样后的邻居节点信息进行聚合后,对每个节点生成一个固定长度的向量表示。接着,本研究设计了对比自监督学习模块,对聚合邻居节点信息的目标节点向量再次进行空间约束,利用节点标签数据,拉近同类型节点空间距离,拉远不同类型节点空间距离。各类别节点类内部集聚、类间拉远,使得各类别节点向量更具区分度,有利于解决数据集中样本不均衡现象,达到更好的检测分类效果。其次,本文提出了基于多关系异构图和注意力机制的虚假评论检测模型,解决了虚假评论者中存在的特征伪装、关系伪装以及邻居噪声节点问题。该模型对构建了多关系异构图替代上述基于GraphSAGE和对比自监督学习的虚假评论检测方法中构建的单一关系图,使得更全面地挖掘水军团体间的图结构信息,一定程度上消除特征伪装和关系伪装问题,减少由于某一关系图自身问题导致的错检或漏检。另外,该模型设计基于标签感知的余弦相似度方法过滤目标节点的一些邻居噪声节点,使得目标节点保留潜在的同类型邻居节点参与聚合过程。在聚合过程中,本研究设计新的多关系图图中、图间的消息聚合函数。这些消息聚合函数引入了注意力机制,可以聚合更加有效的邻居节点信息,优化图神经网络消息聚合效果,使得检测效果提升。本文在公开的真实评论数据集Yelp和Amazon进行了大量的实验验证,选用Recall以及AUC指标进行实验效果对比评估。实验效果表明,本文提出的两种模型达到或超越绝大部分虚假评论检测基准模型,并且实用性更强。
其他文献
心血管疾病的患病率逐年增加,对人类健康造成了极大威胁。心律失常的准确识别对诊治心血管疾病具有重大意义,利用计算机技术实现心电信号的自动识别主要分为预处理、波形检测和分类识别三个步骤。在实际应用中,由于不同程度的噪声干扰、特征波的错误定位和不充分的特征提取等原因,导致心律失常的分类效果并不理想。本研究围绕上述三个步骤分别做以下三点改进:(1)传统的去噪方法容易造成高频信号中有用信息的丢失,且对含有高
学位
学位
学位
学位
学位
聚类以无监督学习方式将无标签数据分为不同类簇,是当前数据挖掘的重要手段之一。其中,网格聚类以网格单元为处理单位,聚类时间复杂度独立于数据点的数目,在大数据集聚类方面备受青睐。然而,随着数据量的增大和数据维度的增加,网格聚类会因非空网格数量急剧增加而致聚类效率降低;此外,由于现实中的数据往往存在类簇间的交叉重叠,传统网格聚类算法使用连通性进行聚类容易将多个交叉类簇错误地聚为同一类簇,致使聚类精度降低
学位
学位
网络化控制系统作为工业领域中重要的基础设施,已深入到经济、文化、政治和社会等各个领域。在加快社会发展进程的同时,也极大提高了人类的生活和工作质量。随着网络技术的飞速发展,网络化系统结构愈发复杂多变,其应用领域也在发生着翻天覆地的变化。在网络化系统中,其数据的有效传输常常依赖于网络中的有限带宽,但是在系统趋于稳定的过程中,其传输的数据有一部分具有较高的相似性。因此,为了减少这种不必要的相似数据传输,
学位
学位
学位