基于级联过滤和增强模型集成的推荐方法研究

来源 :广东工业大学 | 被引量 : 3次 | 上传用户：handsomels

【摘要】

：

随着互联网的高速发展,其信息量和用户数也在飞速增长,人们逐渐步入了信息过载时代,信息过滤的推荐技术应运而生。近年来推荐技术在学术界成为研究热点,在工业界得到了广泛应

【作者】

：

黄斌

【机构】

：

广东工业大学

【出处】

：

广东工业大学

【发表日期】

：

2016年01期

【关键词】

：

级联过滤多模型集成增强集成二分类问题回归问题

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的高速发展,其信息量和用户数也在飞速增长,人们逐渐步入了信息过载时代,信息过滤的推荐技术应运而生。近年来推荐技术在学术界成为研究热点,在工业界得到了广泛应用。然而推荐技术存在的问题也逐渐暴露,特别是主流推荐算法无法甄别无效样本,模型单一泛化能力较弱,以及因实时性能差而难以拟合用户近期的交互信息等问题,严重地影响到推荐系统的进一步应用和推广针对当前推荐系统面临的上述问题,本文给出基于级联过滤和增强模型集成的推荐方法,主要工作如下：(1)鉴于当前主流推荐算法无法甄别无效样本,本文给出级联过滤的方法。首先在样本集上构建面向用户-项目的偏好模型,采用逻辑回归模型拟合用户兴趣,对样本进行首级弱过滤处理以最大化正样本提升度；然后在哑变量和独热编码类特征体系中,采用次级逻辑回归对样本进行强过滤,以寻求最大正样本提升度。运用级联模型能较为有效地过滤掉噪声样本离群样本和弱贡献率样本,为后续模型提供更能反映用户兴趣本质的样本(2)当前大多推荐算法均为单模型算法,当训练样本和预测样本时间或数据规模分布不一致时,存在着泛化能力较弱的缺陷。针对此问题本文给出多模型融合的方法,主要是把推荐问题抽象成为用户在未来一段时间内是否对项目感兴趣的二分类问题,以及用户对项目兴趣浓度的回归问题,分别采用基于Bagging的随机森林算法和基于Boosting的梯度提升回归树进行拟合。由于此两种算法均为树型算法,因此还引入线性的逻辑回归算法差异化各子模型以获得更佳的集成学习效果。将上述算法分别训练若干子模型,采用逻辑回归算法对子模型评分结果进行融合。此方法能有效实现多模型集成,融合各子模型优点,增强模型泛化能力。(3)针对推荐系统因实时性差而难以拟合用户近期交互信息的问题,本文设计了在线增强模型集成的框架,采用拟合能力强且可并行学习的随机森林拟合新数据,并不断将新模型融合到前驱模型中。由于新数据不断产生,新模型不停增加,新模型相对后驱模型将成为旧模型,此过程不断地循环,整体模型得以不断增强,形成一条非完备的马尔可夫链。为了验证本文方法的有效性,本文设计了六组实验,并对实验结果进行总结分析。实验结果表明,该方法能较为有效地过滤掉离群样本、噪声样本和弱贡献率样本,克服单个基础子模型的易于过拟合、泛化能力不强的缺陷,且能以较好的实时速度拟合用户近期的交互数据,从而提升推荐的准确性,具有一定的实用价值。

其他文献

基于覆盖的粗糙Vague集模型及Vague信息系统属性约简研究

粗糙集理论是一种新的处理不确定、不精确、不完整知识的数学分析工具,与其他处理不确定和不精确问题理论的显著区别是它无需提供问题所需处理的数据集合之外的任何先验信息,

学位

粗糙集理论模糊信息Vague集理论覆盖知识空间

扩展近似空间上不精确路径研究

自从1982年波兰科学家Pawlak首次提出粗糙集理论以来,粗糙集理论正在赢得越来越多研究人员的关注,关于粗糙集的研究成果层出不穷,并已经被成功地应用于自动控制、医疗诊断、

学位

粗糙集理论不精确路径扩展近似空间二元关系粗糙化方法

基于区域的图像检索方法研究

现代信息技术的快速发展需要更好的图像检索技术来应对海量图像数据的检索。基于内容的图像检索随之被提出并迅速发展起来。它包括基于全局特征的图像检索和基于区域特征的图

学位

基于区域的图像检索ISODATA聚类图像分割图像匹配

可再生能源分布式发电站微机监控系统的研究与实现

本文在综合分析国内外微机监控技术现状的基础上,结合可再生能源分布式发电相关专业知识,应用分布式计算机测控技术、数据采集及通信技术、孤岛检测技术、卸负荷技术和逆变并网技术,通过硬件和软件的设计,实现了可再生能源分布式发电站的监控。系统采用分层分布式的结构,第一层为监控中心微机,第二层为发电站监控微机,第三层为环境参数监控微机,信号采集控制监控微机和发电单元监控微机。第一层与第二层采用GPRS-Int

学位

微机监控信号采集通信网络逆变并网

数字签名中的容侵密钥管理研究

随着计算机科学技术的发展,电子商务、电子政务、电子金融得到广泛应用,人们希望通过互联网进行迅速的、远距离的贸易合同的签名。因此,数字签名技术应运而生。数字签名是一

学位

前向安全数字签名密钥泄漏无证书签名密钥托管离散对数问题随机Oracle模型

复杂纤维图像的识别研究

我国是世界上最大的纺织品生产和出口国。过去对纺织品中纤维种类的鉴别往往依靠人工劳动,其操作步骤复杂,工作效率低,同时掺杂了人的主观因素,容易造成鉴别错误,所以,用计算

学位

图像识别边缘检测多尺度最小二乘法曲率曲线匹配

杆件物体空间定位问题的研究与实现

虚拟现实技术在这些年来的发展速度十分惊人,三维可视化技术被广泛地应在了许多的领域,例如计算机仿真。它能对真实世界进行三维模拟,使用户在获取信息方面变得更加轻松和直

学位

空间定位图像识别双目体视

学分制环境下高校就业服务系统的设计与实现

随着我国高等教育的发展，大部分高校逐渐采用学分制教学管理模式。作为学校管理的重要环节，就业管理和服务必须与该模式相一致以协调发展。同时随着信息时代的到来和Internet

学位

就业管理学分制工作流数字签名ajax

基于DCT的实值离散Gabor变换及其在雷达信号表示中的应用

Gabor变换作为信号的一种联合时频分析工具,克服了傅里叶变换不能准确地描述一个信号的频率随时间变化情况的缺点。早在1946年,Dennis Gabor将作为傅里叶变换核的复指数函数

学位

实值离散Gabor变换双正交分析窗离散余弦变换(DCT)雷达信号

基于Kinect的上肢运动康复交互系统研究

在康复医疗领域,现在主要以人工和机器人辅助训练两种康复方法,人工辅助训练是康复教练一对一的对病患进行康复训练的指导,但现实中往往医疗资源匮乏,机器人辅助方式又会有造

学位

康复训练移动医疗人机交互Kinect动作识别Unity3D

基于级联过滤和增强模型集成的推荐方法研究

与本文相关的学术论文