论文部分内容阅读
社交媒体的发展为我们的生活带来了种种便利,也推进了信息时代电子商务的升级转型。在主流的电商平台中,商品评论为消费者提供了一个了解商品属性的途径和方式,由于商业利益的驱使,部分恶意用户充当恶意评论用户故意贬低竞争对手的商品价值,很多商品的竞争对手还会故意发布虚假或者恶意评论以误导消费者,导致大量低质量评论泛滥,同时还会导致消费者的财产损失。用户可信度作为用户在社交网络中影响力、信誉度等信息的综合衡量指标,在整个评估体系中的重要性不言而喻。因此,通过筛选低可信度用户的方式将用户区分开来以优化线上购物环境一直是电子商务平台所关注的焦点。尽管目前有很多针对用户可信度的评估方法,但是大多数集中在对用户生成文本特征方面的研究,部分方法没有区分文本质量的高低,仅仅将研究局限于虚假文本的范畴,未能考虑到低质量的文本给评估结果带来的影响。还有很多研究方法集中在文本语法特征。这样的处理方法往往太过主观,甚至判断标准之间相互矛盾。使得方法对文本处理程度不足。同时,还有很多研究使用基于链接的研究方法以区分用户,但是这些方法都存在新节点加入网络时的重构或者用户冷启动的问题,这导致方法的泛化能力较差,准确率不高。综上,目前用户可信度评估方法中存在文本质量的判断不足,部分方法太过主观,同时存在泛化能力较差的问题。鉴于目前研究存在的问题,本文提出了一个融合用户行为分析和评论可信性判定的用户可信度评估模型。这是一个以用户行为特征和用户文本为基础的用户可信度评估框架。通过此框架分辨出数据中高可信用户和普通用户。为了解决评估准确率不高的问题,本文通过深入挖掘用户的社会属性来获得每个用户的可信程度,不再单纯的使用用户属性或者构建用户关系网络。另外,针对文本处理方式不足的问题,本文设计了两种基于用户情感分析的文本质量评估方法,保证了文本质量评估方法具有高效的泛化能力。在本文的用户可信度评估模型中,提取了用户可靠度,用户活跃度和用户文本质量三组特征作为用户可信度的度量依据,然后构建了一个有监督学习模型来对用户可信度进行预测。同时为了保证文本质量判断的准确性以及防止冷启动现象,本文提出了两种文本质量评估方法,分别是基于主题模型的文本质量评估方法,以及基于深度学习的文本质量评估方法。为了解决真实数据中存在高质量和低质量评论不平衡的问题,本文还提出了一个自动选择采样方法机制以处理数据的问题。最后,为了验证文本质量评估方法,本文使用了亚马逊评估数据集。使用大众点评评论数据集和YELP评论数据集对用户可信度评估模型进行验证,通过实验结果,证明了本文方法的有效性和先进性。