论文部分内容阅读
随着网络技术飞速发展,信息交换日益频繁带来了信息选取的困难,推荐系统应运而生。推荐系统依据用户的需求和兴趣等,将用户感兴趣的产品进行推送。具有个性化的推荐系统现已广泛应用于很多领域,尤其是电子商务领域。但是在实际应用中,推荐系统容易受到虚假评论的攻击,使得推荐系统的推荐效果和可信度急剧下降。因此,对于推荐系统来说,实现有效的虚假评论过滤和精准推荐至关重要。目前已有大量针对虚假评论和推荐系统的研究工作,但是在面对虚假评论攻击的时候如何实现精准推荐仍然存在挑战,存在的主要问题包括:1)虚假评论的识别与过滤依赖大量带标注的真假评论数据集作为基础,已有的虚假评论数据大多数依靠人力标注且数据较少,如何自动获取大量带类标的真假评论数据集是实现有效过滤虚假评论、精准推荐的基础;2)精心设计的虚假评论导致推荐系统性能急剧下降,已有的方法利用文本的统计信息作为特征输入虚假评论的文本检测器无法实现对虚假评论的有效检测,因此如何有效的过滤真实数据中的虚假评论至关重要;3)已有的推荐算法在处理稀疏推荐数据的时候存在推荐效果差的问题,数据稀疏性会直接影响推荐系统的推荐效果。针对以上问题,本文提出了虚假评论攻防策略,设计并实现了可过滤虚假评论的在线聚类推荐系统。针对虚假评论自动生成问题,提出了基于条件文本生成式对抗网络生成虚假评论数据,设计数据循环利用来优化置信度的双循环图虚假评论检测算法。针对推荐数据较稀疏的特点,设计一种基于新型网络表征技术和丰富信息网络的新型在线聚类推荐系统。具体研究内容包括以下几个部分:(1)为实现自动生成带类标的虚假评论数据集,本文提出了基于条件文本生成式对抗网络的文本生成算法生成虚假评论数据。条件文本生成式对抗网络算法能够生成带有特定情感标签的可变长文本,并采用自动化的单词级替换策略保证生成文本的质量和多样性。实验验证了自动生成虚假文本的有效性,对于仅依据文本信息进行虚假评论检测的检测器无法实现其有效监测。(2)针对存在虚假评论的推荐数据,本文提出了基于双循环图的虚假评论检测算法。为了获得更为可靠的用户置信度和商店置信度的初始值,提出数据循环利用的方法获得第一次循环结束时的用户置信度和商店置信度,对用户和商店置信度初始值进行优化以构建合理的图过滤器;设计一种参考用户对商店的个人影响力的加权图过滤器;通过对加权图过滤器的置信度初始值优化,进行图循环过滤模型的二次迭代。(3)针对推荐算法中数据稀疏导致的推荐效果差的问题,提出了基于node2vec技术和丰富信息网络的聚类推荐系统。利用网络表征学习方法和单边投影法相结合将向量的形式表示用户-商店网络,有效的将用户-商店网络中潜在的特征依据向量的形式表现出来;针对数据稀疏性和聚类算法的聚类效果差等问题,提出了基于动态紧邻点的谱聚类算法,能够自动确定聚类个数和较高的聚类效果。利用分阶段个性推荐实现每个用户的个性化推荐。