基于深度迁移学习的虚假评论检测方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:baobei871011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线评论在电子商务中具有重要作用。不仅用户在购买产品之前需要查看相关的评论,而且在线评论也直接影响商家的声誉和盈利水平。随着电子商务的迅猛发展,虚假在线评论日益增多,严重地干扰了消费者的购物决策,污染了公平的电子商务环境。尽管已有大量的虚假评论检测方法,但是检测结果并不令人满意。首先,虚假评论的特征表示不够丰富,没有充分利用评论的多模态特征,而且缺乏检测结果可解释性;其次,评论数据集的正负样本不均衡,严重地影响了虚假评论检测结果;最后,目前流行的自监督深度学习检测方法没有充分利用已有的标签,无法有效区分语义相似但类别不同的虚假评论。针对上述问题,本论文研究了虚假评论数据的特点以及现有的虚假评论检测方法,提出了基于深度迁移学习的虚假评论检测方法。本论文的主要贡献如下:(1)提出了一种基于知识集成的可解释虚假评论检测方法(EKI-SM),以解决虚假评论特征表示不够丰富、检测结果缺乏可解释性的问题。首先,集成了领域知识以指导虚假评论检测,同时为检测结果提供可解释性;其次,融合多模态特征,采用1D卷积、长短期记忆网络(Long Short Term Memory Network,LSTM)、跳层等方法,学习具有辨识力的评论文本的高维特征表示,有效提升了虚假评论的检测性能;再次,受到可解释性深度学习的启发,EKI-SM能够发现评论文本中的重要词,为虚假评论检测结果提供解释。(2)提出了基于数据增广和模型迁移的虚假评论检测方法(DA-BERT),以解决评论数据集正负样本不均衡、检测结果精度不高的问题。首先,均衡数据集中的正负样本,利用EDA(Easiest Data Augmentation)和回译这两种数据增广的方法;其次,迁移了BERT(Bidirectional Encoder Representation from Transformers)预训练模型,学习评论中丰富的语义信息,提高模型的检测性能;再次,与最新的虚假评论检测方法进行对比,实验结果表明,本论文方法能够有效地均衡数据集的正负样本,提高预测的准确性。(3)提出了基于微调迁移模型的虚假评论检测方法(CL-BERT),以解决自监督深度学习检测方法没有充分利用已知标签,无法有效区分语义相似但类别不同的虚假评论的问题。首先,采用BERT预训练模型获取评论的向量表示;其次,利用有监督的对比学习微调模型增强了具有相似语义但类别不同的虚假评论的向量表示;再次,所提方法与传统的深度神经网络模型相比,该方法有很强的分类能力。我们在多个公开数据集进行了大量实验,并且利用多项评价指标进行评价。结果表明,论文提出的一系列虚假评论检测方法具有更优的性能,不仅检测结果达到或超越目前主流的虚假评论检测方法,而且提供了检测结果的可解释性。
其他文献
在信息化时代,数据信息呈现出爆炸式增长的趋势,进而产生了具有多种特征描述的多视图数据。面对海量数据,如何有效的将数据按照相似性进行分类以减少数据的杂乱程度,以便更好的帮助学者分析和利用数据的潜在价值显得尤为重要。多视图聚类方法能够从不同的角度描述数据的特征,有效揭示数据的内部结构,通常具有比单视图聚类方法更优的聚类性能,因此其在多视图数据分析中的应用越来越广泛。目前,子空间聚类在处理多视图数据聚类
学位
随着深度学习技术的不断发展,卷积神经网络被广泛应用于很多科研领域,深度学习技术已成为解决计算机视觉领域问题的有效手段之一。当前,目标检测在智能视频监控、机器人导航、航空航天等领域中发挥着较大的作用,被研究者广泛关注。大数据时代的到来,数据量呈指数级增加,同时图形处理器(GPU)等硬件设施的更新迭代带动了目标检测算法的快速发展。Logo检测作为目标检测的一个分支,从图像中检测出Logo是确定品牌最具
学位
伴随机器视觉技术在农机装备、智慧农业等领域中的不断创新,农业基础与核心技术也在随之快速夯实与突破,加速推动农业的自动化与智能化进程。其中,目标果实的精准、高效识别在智能采摘、生长监测、产量预估等农业生产环节中扮演着重要角色,是实现农业自动化作业的基本保障。然而在自然环境下,果园呈现复杂化、非结构化等特点,非常规姿态果实、多光照环境、多角度机位采集等因素均制约着果实的识别效果,绿色果实受同色系枝叶背
学位
近年来,图像语义分割已经广泛应用在诸多领域,随着软硬件的升级和应用的扩展,对于分割精度的要求越来越高。室内场景呈现出环境多变、光照不均、物体间关系复杂等特点,仅仅依赖包含颜色信息的RGB图像难以对室内场景进行精准分割。采集室内场景的RGB-D图像,引入深度图像的空间信息,作为RGB图像的互补信息,可以有效改善物体易受复杂环境干扰的问题,提升语义分割的精度。其中RGB图像用以描述物体的颜色信息,深度
学位
随着多媒体技术的蓬勃发展以及电子设备的普及,使用扫描仪、手机、相机、监控、行车记录仪等设备获取的文本图像的数量迎来爆炸式增长。如何精准地识别图像中的文本已经成为重要的研究课题。文本识别技术主要对扫描文档图像和场景文本图像进行识别。近年来,基于深度学习的场景文本识别技术取得了巨大的进步,能够同时应对扫描文档和场景文本的识别。然而,在反光的交通指示牌、磨损的路面标识、污损的集装箱编号、被印章遮盖的文件
学位
在人口老龄化趋势日益加剧及老年人对高质量养老生活的需求日益增长的背景下,老年人对酒店的产品及服务提出了特殊要求,但我国酒店业现有的产品及服务无法满足日益旺盛的老年群体消费需求。通过问卷调查、深度访谈等研究方法调查酒店业老年消费群体需求以及酒店适老化产品供给情况,能够在供给侧结构性改革的视角下提出相应建议,探索酒店的适老化发展策略,为酒店业的创新发展提供参考。
期刊
网络控制系统的概念最早由G.C.Walsh提出,通常是指传感器、控制器、执行器和通信网络在一定区域内的集合。随着网络的加入,使得控制系统中传感器与控制器间以及控制器与执行器的通信往往会产生丢包或者数据延迟现象,从而恶化系统性能,甚至导致系统的不稳定,因此,越来越多的控制学者致力于设计更加优化的估计器用于解决含丢包或者含时滞系统的未知输入及状态同时估计问题。本文将进一步提出有效的技术和理论分析方案,
学位
世界范围内,随着城市化进程的加快,城市居民数量剧烈增加,大规模人群聚集的场景也愈发常见。这些场景中会存在较多安全隐患,容易引发公共安全事件。为了防止安全事件的发生,基于计算机视觉的视频监控系统被广泛应用在城市内部的各个公共场所,实时监控和分析各场所中的人群信息。作为视频监控系统的两项基本任务,大规模人群计数和人群定位也随之在公共安全领域发挥了重要作用,受到了学术界的广泛关注。随着卷积神经网络技术的
学位
近年来,伴随着多自主体系统的广泛应用以及协调合作控制问题的深入研究,学者们对趋同问题的研究也越来越关注。为了实现趋同,个体借助于传感网络或通信以交换共同感兴趣的信息,并利用控制协议来实现趋同。但由于网络带宽和通信信道的约束,时滞现象普遍存在于通信网络中,其不仅会降低系统的性能,甚至会破坏系统的稳定。因此研究带有延迟信息的多自主体系统的趋同受到广泛的关注。针对上述分析,本论文基于延迟的状态信息研究了
学位
在我国水果种植面积和产量逐年增长、农业劳动力短缺和国家大力倡导发展农业科技的背景下,迫切需要提升果园农机装备自动化、智能化水平。视觉系统是果园农机装备智能化升级的核心组成,其性能是实现果园早期测产和自动化采摘作业的基本保障。在复杂的果园环境下,构造目标果实的精准、高效分割算法已经成为视觉系统研究的关键。绿色果实颜色与背景枝叶颜色相近,容易对目标果实分割造成一定干扰,且在实际果园环境中,采集到的图像
学位