论文部分内容阅读
随着电子商务的发展,越来越多的消费者开始选择网购。消费者通常会在做出购买决策前参考已购用户对该商品的评价。人们对于商品评论的依赖导致了虚假评论的涌现,部分商家受利益驱使,开始雇人过度褒奖己方商品或者恶意诋毁竞争对手商品。虚假评论不仅会影响消费者的网购体验,还会使部分商家的名誉受损。虚假评论检测作为观点挖掘、情感分析和推荐系统的预处理技术,近年来成为了一个研究热点,其在学术研究和实际应用中均有深远意义。虚假评论检测领域的现有研究大多数是采用机器学习方法将虚假评论检测转化为分类问题来处理,研究对象主要集中在评论文本特征、评论者行为特征和商品特征上。这类方法依赖于繁重的特征工程,在真实数据集上获得的性能也有限。近年来,基于时间序列的虚假评论检测开始出现,且取得了不错的性能,此外,现有研究大多数都是面向单站点、单语料的。因此,本文考虑运用基于时间序列的跨站点、跨语料虚假评论检测方法来展开研究,主要内容如下:首先,本文对虚假评论检测的发展现状做了系统地综述,以虚假评论检测对象的变化为线索,总结了该领域所用到的特征和算法,以及这些方法的优缺点。接着汇总了本领域的常用数据集,为后续研究中实验数据集的选取打下基础。结合以往的研究成果和盲区,本文提出了跨站点、跨语料的全新检测思路来解决虚假评论团伙在单一站点中的伪装欺诈。然后,在对时间序列、跨站点检测和评论图模型的相关技术进行介绍后,提出了基于时间序列的跨站点、跨语料虚假评论检测模型。首先在中文、英文网站上构造同一商品的评论时间序列并完成预处理,然后分别在单条时间序列和跨站点时间序列上进行突发评论检测并将时间序列特征以嫌疑时间段的形式展现出来,最后融合评论文本特征后作为模型的总体输入特征。实验结果表明,该模型的效果在传统的基于评论文本内部特征的检测算法上提高了14%。最后,由于融入评论外部特征对虚假评论检测性能提升有关键影响,受评论图模型启发,本文通过寻找评论、评论者、商铺这三者可信度的相互影响关系,将三者抽象为关系图,从而构建了改进后的评论、评论者、商铺可信度的评分模型。实验结果表明,本文模型对虚假评论的检测性能相比传统评论图模型算法性能提升了1.1%。