集成层级图注意力网络的非均衡虚假评论检测方法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:clone111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上存在海量形式异构的用户生成内容,包括公开点评网站、电子交易平台中用户针对某些服务或产品所发表的评价。通常,用户会通过多种形式分享他的消费体验,比如上传照片等图像数据,发表文字评论,在平台限定范围内给出评分。随着个性化推荐、用户画像、文本挖掘分析等研究的不断深入,这些体量庞大的用户反馈数据越来越成为其不可或缺的研究支撑。某种程度上,在线评论会影响甚至引导其他新用户的购物决策,从而与品牌信誉、商家经济收益紧密关联。为了获取灰色收益,某些群体或个人发表欺骗性的虚假评论以攻击商业竞争对手或抬高自身形象,因而过滤虚假评论成为关键的一环。传统的机器学习虚假评论检测技术依赖根据专家经验手工设计的离散欺诈特征,大都将鉴别评论真伪的任务归纳为文本二分类,虽然能够取得不错的分类准确率,但一般无法避免高代价的特征工程工作。基于概率图模型的方法通常将原始评论数据建模为拓扑网络,探索评论系统实体间的概率依赖关系,将虚假评论识别转化为图上的概率推理、排序问题。图神经网络(Graph Neural Networks,GNNs)模型可以同时保持网络结构相似性与节点属性信息,有些研究基于GNNs结合用户评论构建端到端的欺诈检测方法。虚假评论在总体大规模用户评价数据中只占少数,类别非均衡问题作为影响检测性能的关键因素在GNN-based虚假评论检测方法中还待进一步研究。集成学习(ensemble learning)、数据重采样(re-sampling)和损失函数工程是深度学习中解决类别倾斜问题的强大工具,针对GNN-based虚假评论检测模型面临的数据类别不均衡问题,提出集成的层级图注意力网络虚假评论识别方法,本文的主要工作如下:(1)研究虚假评论识别的国内外相关工作,总结一些常见的欺诈评论特征,从学习方式、所用特征信息等角度分析这些检测方法的特点;总结一些主流的解决类别非均衡分类问题的技术,整理虚假评论识别中关注数据类别倾斜问题的一些研究。(2)针对数据类别非均衡问题,提出集成层级图注意力网络的虚假评论检测方法En-HGAN。将评论系统建模为不同视角下包含评论间多种复合关系的评论网络,利用层级图注意力网络HGAN为评论学习更加细致的向量表征;融合随机欠采样策略与集成学习Bagging框架,基于输入样本扰动集成多个差异化的HGAN子模型,减少有效信息损失的同时提升模型的泛化性能。真实的非均衡评论数据上的实验结果显示En-HGAN方法有不错的欺诈检测性能。(3)数据类别倾斜分布下,为了不严重损害检测性能同时降低模型训练花费,结合快照集成(snapshot ensemble)思想与非均衡的Focal Loss损失函数提出SEn-HGAN虚假评论识别方法。在HGAN的整次训练过程中,采用Focal Loss指导其学习方向,基于循环余弦退火方式周期性地调整学习率,利用参数扰动集成多个收敛到不同局部最优的HGAN子模型。在真实的非均衡虚假评论数据集上实验又与En-HGAN方法比较,显示出良好的识别性能与合适的训练代价之间的平衡。
其他文献
随着光纤通信技术的不断发展,具有峰值功率高,脉冲宽度窄的超短脉冲成为了科学研究的热点。超短脉冲在光纤传感、光纤通信、光信息存储和非线性光学等领域具有重要的应用价值。光脉冲在光纤中的传输可以用非线性薛定谔方程来描述。理论研究证明,利用非线性薛定谔方程可以得到有限背景上的孤子解。通常有限背景上的孤子解可以分为Peregrine孤子解、Kuznetsov-Ma孤子解、Akhmediev呼吸子解,其中,A
在图像处理的研究过程中,所拍摄的图像是否清晰对于分析图像的特性至关重要,在影响图像清晰度的各种因素中,恶劣天气对于图像的拍摄有严重影响,其中雨天是不可避免的因素之一。因此,对雨天所拍摄图像上的雨滴以及雨条纹的去除,是确保图像清晰度的必不可少的研究过程。目前,去除附着图像上雨滴的方法主要包括传统方法,基于非生成对抗网络以及基于生成对抗网络的方法。其中传统方法耗时费力,效果显著性不强,非生成对抗网络方
随着信息化与工业化的发展,物联网作为其中关键一环,得到了广泛的应用。射频识别(Radio Frequency Identification,RFID)技术是物联网的主要技术之一,已被广泛应用在各种场景中。主要被用来实现对物品信息的收集、自动识别、身份认证等。在一些RFID应用场景中,往往需要布设多个阅读器,以期覆盖整个监管区域。在多阅读器并存的环境中,如何防止阅读器之间的通信冲突或通信碰撞十分值得
闪存技术经历了几十年的发展,闪存单元的尺寸经历了明显地缩放,对于存储性能的要求越来越高,相应的器件模型的建立也面临着重要的挑战。POM分子闪存器件作为一种新型的闪存器件,利用POM分子作为闪存单元的浮栅代替传统的硅浮栅极,使得闪存单元可以在纳米范围内进一步缩放,这对于闪存行业的发展具有重要意义。模型参数提取,器件模型的电路级建模和相应的电路仿真研究,是器件研究过程必不可少的部分。模型参数的提取方法
智能驾驶技术是目前高新科技领域的重点研究对象,它对社会发展、经济建设和科技进步等都有着重要的影响。传统智能驾驶环境感知领域是通过图像传感器、激光传感器和雷达等多传感器信息融合感知环境信息,该方法存在传感器数量多、计算复杂和成本高等缺点,而利用视觉图像来进行道路静态目标的检测识别具有无可比拟的优势,通过一次视觉图像的获取可同时获得路面的多种目标信息。基于聚焦形貌恢复技术的原理,本文提出一种利用车载单
综采支运装备是综采工作面支护与推进的核心设备,实现综采支运装备协同推进是综采工作面协同推进的关键环节之一,对实现综采工作面无人化、透明化开采具有重要意义。由于连接综采支运装备的浮动系统的运动具有自由性、空间性的特点,使得刮板输送机无法被推移至既定位置,进而对其协同推进过程中的刮板输送机的直线度产生影响,最终影响整个综采工作面的协同推进。由此,对综采支运装备的浮动连接机构的空间运动进行建模与分析成为
对于大面积的自生林和野生林,需要有效地检测具有代表性的可燃物区域,进行针对性的火警监测。当前森林可燃物普查的有效手段是通过飞行器拍摄获取森林影像数据集,但获取的数据集庞大,需要从中选出具有代表性的可燃物区域进行监测,同时也会带来数据处理复杂的问题。从数据集中选择小部分代表性数据的问题可以称其为数据摘要问题,而数据摘要问题常通过传统子模集合覆盖方法来解决。数据集庞大造成的计算复杂则可通过引入流式算法
本课题是山西省研究生联合培养基地人才培养项目(2018JD09)“无人值守工作面液压支架电液控制系统的研制”的重要组成部分,它是针对井下无人值守工作面在实验室和监控中心如何再现的问题而提出的。课题以煤矿井下综采工作面液压支架电液控制系统为研究对象,将虚拟仿真技术应用于液压支架监控平台,基于实验室现有的无人值守工作面模拟实验系统,以智能化综采工作面液压支架动态仿真平台为目标,开发出一套液压支架远程控
挖掘机广泛应用于各种施工场合,在工程机械中占有十分重要的地位。挖掘机作业环境复杂多变,常伴有噪音、粉尘,一些场合甚至存在塌方、辐射等危险,挖掘机自主智能化作业已成为未来发展趋势。工作装置姿态信息是智能控制系统的重要参数,实时精准地获取姿态信息对自主智能化作业起着至关重要的作用。在挖掘机工作装置姿态测量方面,大部分是以电位计、关节角度编码器等接触式传感器来实现。近年来一些研究人员针对姿态测量中接触式
传统的肺癌诊断主要通过人工读片的方式,找到肺结节所在的位置并判断其良恶性,这对于医师的经验有着较高的要求,同时极大的工作量很有可能造成诊断疲劳,甚至造成漏诊或误诊,耽误患者的最佳治疗时期。计算机辅助诊断技术的出现,实现了肺结节的自动诊断,减轻了医生的工作量,也在一定程度上缓解了不同地区医疗水平差异的问题。但目前与肺癌相关的计算机辅助诊断技术大多数针对独立时期的肺部病灶影像,通常是对肺部影像进行肺结