论文部分内容阅读
随着互联网的高速发展,其信息量和用户数也在飞速增长,人们逐渐步入了信息过载时代,信息过滤的推荐技术应运而生。近年来推荐技术在学术界成为研究热点,在工业界得到了广泛应用。然而推荐技术存在的问题也逐渐暴露,特别是主流推荐算法无法甄别无效样本,模型单一泛化能力较弱,以及因实时性能差而难以拟合用户近期的交互信息等问题,严重地影响到推荐系统的进一步应用和推广针对当前推荐系统面临的上述问题,本文给出基于级联过滤和增强模型集成的推荐方法,主要工作如下:(1)鉴于当前主流推荐算法无法甄别无效样本,本文给出级联过滤的方法。首先在样本集上构建面向用户-项目的偏好模型,采用逻辑回归模型拟合用户兴趣,对样本进行首级弱过滤处理以最大化正样本提升度;然后在哑变量和独热编码类特征体系中,采用次级逻辑回归对样本进行强过滤,以寻求最大正样本提升度。运用级联模型能较为有效地过滤掉噪声样本离群样本和弱贡献率样本,为后续模型提供更能反映用户兴趣本质的样本(2)当前大多推荐算法均为单模型算法,当训练样本和预测样本时间或数据规模分布不一致时,存在着泛化能力较弱的缺陷。针对此问题本文给出多模型融合的方法,主要是把推荐问题抽象成为用户在未来一段时间内是否对项目感兴趣的二分类问题,以及用户对项目兴趣浓度的回归问题,分别采用基于Bagging的随机森林算法和基于Boosting的梯度提升回归树进行拟合。由于此两种算法均为树型算法,因此还引入线性的逻辑回归算法差异化各子模型以获得更佳的集成学习效果。将上述算法分别训练若干子模型,采用逻辑回归算法对子模型评分结果进行融合。此方法能有效实现多模型集成,融合各子模型优点,增强模型泛化能力。(3)针对推荐系统因实时性差而难以拟合用户近期交互信息的问题,本文设计了在线增强模型集成的框架,采用拟合能力强且可并行学习的随机森林拟合新数据,并不断将新模型融合到前驱模型中。由于新数据不断产生,新模型不停增加,新模型相对后驱模型将成为旧模型,此过程不断地循环,整体模型得以不断增强,形成一条非完备的马尔可夫链。为了验证本文方法的有效性,本文设计了六组实验,并对实验结果进行总结分析。实验结果表明,该方法能较为有效地过滤掉离群样本、噪声样本和弱贡献率样本,克服单个基础子模型的易于过拟合、泛化能力不强的缺陷,且能以较好的实时速度拟合用户近期的交互数据,从而提升推荐的准确性,具有一定的实用价值。