论文部分内容阅读
近年来,随着网络购物的发展,消费者逐渐由传统的线下购物转向更便捷的线上购物,且养成了对已购买商品发布评论的习惯。电子商务平台上逐渐积累了大量的在线商品评论,这些评论信息为商家,潜在消费者和研究者们提供了珍贵的数据资源。由于在线评论信息可以在某种程度上影响消费者的购物决策,进而影响产品销量,因此在商品评论中逐渐出现了一些不真实的内容。这些虚假评论迷惑了消费者,降低了在线评论的参考价值,扰乱了正常的电商秩序,因此识别虚假评论显得尤为重要。在线商品评论是最具有代表意义的评论信息,是虚假评论识别问题的理想数据源,也是本文使用的数据集。本文对虚假评论识别技术和半监督学习方法进行了研究与分析,首先介绍了虚假评论识别问题的研究现状和发展趋势,然后介绍了半监督学习原理及其分类方法,最后将基于分歧的半监督学习领域的三个主流算法:协同训练(Co-Training)算法,三体训练法(Tri-Training)算法和协同随机森林(Co-Forest)算法应用到了虚假评论识别任务中,提出了基于半监督学习的虚假评论识别模型。本文围绕在线商品评论数据,基于分歧的半监督学习,虚假评论识别问题等关键问题展开研究,主要的研究工作如下:(1)提出了一种基于分歧的半监督学习方法来实现虚假评论的检测任务。根据虚假评论数据集中未标注数据多,已标注数据少的特点,本文借助了基于分歧的半监督学习思想,使用该领域的三个主流算法,循环迭代训练多个分类器,充分利用未标注数据扩充已标注训练集,然后使用训练集更新分类模型,改善模型效果。最后在亚马逊评论数据上进行了实验,结果表明了基于分歧的半监督学习算法对虚假评论有着更好的识别效果。(2)在特征提取阶段,本文结合了评论的主题以及文本信息,依据对评论数据集的统计分析得出的规律,从评论文本、评论者和被评论产品3个角度出发,分析并提取了3大类22个维度的混合特征。最后,基于不同的特征组合,使用三种全监督学习算法:朴素贝叶斯,最大熵分类器和支持向量机分类器,检测了不同特征组合在不同分类器下的识别效果。结果显示,混合特征预测效果更好,且朴素贝叶斯分类器获得了最好的识别效果,并将其应用到了后续的虚假评论识别模型中。