论文部分内容阅读
协同过滤推荐系统作为缓解“信息过载”问题的有效手段,广泛应用于电子商务领域,在提升网站浏览量、商品转化率、顾客忠诚度等方面有非常重要的作用。但是,协同过滤推荐系统也有脆弱的一面,恶意用户在利益驱使下可以人为地向推荐系统注入大量虚假评分,达到影响或操纵推荐结果的目的。因此,如何检测出各类对协同过滤推荐系统造成威胁的欺诈攻击,保证推荐质量,保障推荐结果的可信性,是当前迫切需要解决的问题。本文基于用户的评分行为,从用户多源信息的特征提取、多视角集成检测、自动检测、基于用户关系图的检测等方面进行了深入研究。
首先,针对单一信息源提取的检测特征不能全面刻画用户评分行为的问题,提出一种基于用户评分行为多源信息的特征提取方法。具体地,基于信息融合的思想,定义项目时间流行度,并采用小波变换方法过滤噪声和不稳定信号。从项目流行度和评分时间融合的角度提取4个用户特征;从用户评分的时延,利用修正的条件熵和“休眠-评分”模型,提取2个用户特征;从用户评分值和评分时间融合的角度提取2个用户特征;从不同流行项目集合的角度,提取10个用户特征。
其次,针对检测特征的冗余问题和有监督检测中的不平衡分类问题,基于上述用户评分行为的多源信息特征,利用最优特征子集划分方法构建多个检测视角,提出基于多核学习的多视角集成检测算法,自动确定各个分类视角权重。同时,还提出多次划分视角以增加基分类器多样性的策略。
再次,针对传统检测方法所需知识成本高、泛化能力不强的问题,提出基于堆栈边缘线性降噪编码器的欺诈攻击自动检测方法。具体地,在边缘降噪编码器中,根据常见攻击模型的评分分布,提出项目干扰噪声的计算方法;并提出基于稀疏系数加权的低维特征提取方法,设计用于自动特征提取的堆栈边缘线性降噪编码器结构。依据自动提取的鲁棒、低维的检测特征,提出基于AdaBoost的欺诈攻击检测方法。
然后,针对传统无监督检测方法中所需部分先验知识无法获取和检测准确率不高的问题,提出一种基于用户关系图的无监督检测方法。根据用户共同评分项目的数量、填充率偏差度、评分倾向差异度等因素,提出用户关系图边权重的计算方法;并利用稀疏降噪自动编码器进行图特征提取,以重构用户关系图。在用户关系图中,提出基于社区发现算法和社区特征的欺诈攻击检测方法。
最后,在Netflix和Amazon数据集中进行实验,评估本文提出的方法对模拟生成的欺诈攻击和实际欺诈攻击的检测效果,并与已有的相关检测方法进行对比,验证所提方法的有效性。
首先,针对单一信息源提取的检测特征不能全面刻画用户评分行为的问题,提出一种基于用户评分行为多源信息的特征提取方法。具体地,基于信息融合的思想,定义项目时间流行度,并采用小波变换方法过滤噪声和不稳定信号。从项目流行度和评分时间融合的角度提取4个用户特征;从用户评分的时延,利用修正的条件熵和“休眠-评分”模型,提取2个用户特征;从用户评分值和评分时间融合的角度提取2个用户特征;从不同流行项目集合的角度,提取10个用户特征。
其次,针对检测特征的冗余问题和有监督检测中的不平衡分类问题,基于上述用户评分行为的多源信息特征,利用最优特征子集划分方法构建多个检测视角,提出基于多核学习的多视角集成检测算法,自动确定各个分类视角权重。同时,还提出多次划分视角以增加基分类器多样性的策略。
再次,针对传统检测方法所需知识成本高、泛化能力不强的问题,提出基于堆栈边缘线性降噪编码器的欺诈攻击自动检测方法。具体地,在边缘降噪编码器中,根据常见攻击模型的评分分布,提出项目干扰噪声的计算方法;并提出基于稀疏系数加权的低维特征提取方法,设计用于自动特征提取的堆栈边缘线性降噪编码器结构。依据自动提取的鲁棒、低维的检测特征,提出基于AdaBoost的欺诈攻击检测方法。
然后,针对传统无监督检测方法中所需部分先验知识无法获取和检测准确率不高的问题,提出一种基于用户关系图的无监督检测方法。根据用户共同评分项目的数量、填充率偏差度、评分倾向差异度等因素,提出用户关系图边权重的计算方法;并利用稀疏降噪自动编码器进行图特征提取,以重构用户关系图。在用户关系图中,提出基于社区发现算法和社区特征的欺诈攻击检测方法。
最后,在Netflix和Amazon数据集中进行实验,评估本文提出的方法对模拟生成的欺诈攻击和实际欺诈攻击的检测效果,并与已有的相关检测方法进行对比,验证所提方法的有效性。