排序学习在推荐系统中的应用研究

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 1次 | 上传用户:zxllxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
排序学习(Learning To Rank)是用于预测列表元素排序关系的有监督机器学习方法。在推荐系统经过协同过滤或用户模型召回推荐候选集后,传统推荐系统对推荐列表的排序只是简单地根据用户和推荐物品之间的匹配程度来进行排序,而排序学习则可以根据用户点击日志来训练排序模型进而对推荐列表进行排序。排序学习综合考虑了各个影响因素,具有更好的扩展性。本文系统研究了Pointwise排序学习,并将其在新闻推荐系统中加以实现。研究目标是提高大规模数据中样本处理和特征处理的效率,以及改善所研究模型的推荐效果。本文中设计的新闻推荐系统在如下四个方面得到了性能的提升:(1)针对新闻推荐系统大规模数据的情况,本文利用hadoop的Map-Reduce框架,并行地将用户日志和新闻数据拼接成用于Pointwise排序学习模型训练的样本,并且在Mapper到Reducer之间采用二次排序机制,提高了数据拼接效率。(2)在抽取特征后,本文采用最小描述长度准则(Minimum Description Length Principle)方法对连续特征进行了离散化处理。实验结果表明,单个特征离散化后的模型训练结果,较之于离散化前具有更好的单特征AUC值。(3)针对Filter特征选择方法速度快但效果差,Wrapper特征选择方法效果好但计算量大的特点,本文提出了一种结合Filter和Wrapper的单向循环特征选择方法。该方法分为两个阶段:第一阶段是Filter过程,计算出每个特征的单特征AUC值,再过滤掉单特征AUC值小于特定阈值的特征;第二阶段是Wrapper过程,对第一阶段过滤后的特征集合按单特征AUC值大小顺序排列,采用单向循环方式按序对特征进行一轮一轮地筛选评估,直到某一轮特征子集不再更新(也即,达到收敛状态)为止。实验结果表明,该方法与贪心策略的后向搜索得到相同的最优特征子集,AUC值相对原特征全集训练结果提升了2.9%,并且,该方法大幅度减少了计算量,计算量仅为后向搜索方法的33.3%。(4)在经过特征选择得到新闻特征的最优特征子集后,将用户特征和新闻特征组合成为新的特征,加入到原最优特征子集中,达到个性化效果,实验结果表明加入该类组合特征后,模型预测效果指标AUC值相对提升了3.6%。
其他文献
菲律宾是一个恩庇侍从关系传统深厚的国家。在菲律宾,这种正式制度之外的非正式关系依托地方性的政治家族形成,呈现出菲律宾政治生活的核心特征以及与其他国家的恩庇侍从关系
目的了解乳腺癌患者接受辅助化疗不同阶段的生活质量现状、变化趋势,分析影响乳腺癌患者化疗末期生活质量的影响因素。方法采用方便抽样法,选取2016年10月1日-2017年1月31日
为实现农村金融全覆盖,必须树立普惠金融理念、优先拟定普惠金融发展政策。目前我国普惠金融缺乏总体制度设计、金融机构对农村渗透性不足、片面追求覆盖率而金融资源使用效
水体富营养化是蓝藻暴发的主要原因,污染水体中的蓝藻打捞是水环境治理的重要措施之一。目前没有检测打捞上岸的泥状蓝藻(藻泥)总磷(TP)含量的标准方法。为得到科学的计量打捞蓝藻
随着科学技术的发展,电子设备日益变得复杂。以航空电子设备为例,其分系统机箱间需通过连接附件(连接件和线缆)进行电气互联。在机箱自身屏蔽良好的情况下,连接附件通常成为
改革开放以来,我国经济、政治、文化、社会等事业得到了迅猛发展,各地区、各领域、各要素之间联系日益紧密,原来实行城乡分割的发展模式逐步向城乡融合发展模式转变。统筹城
日益严重的电磁波污染已经对人们的日常生活和身体健康造成了巨大的威胁,水泥基吸波材料是解决民用建筑对电磁波辐射防护要求的一种有效途径。泡沫混凝土的多孔结构在电磁波
随着现代生活方式及生活节奏的改变,代谢综合征(MS)已受到越来越多的关注,它可导致心血管疾病及其他并发症,严重危害着人类生命与健康。目前认为MS发病是由多个因素共同作用
商周时期是赣地文明产生重大变革的关键时期。本文以这一时期赣地的历史与文化作为主要研究对象,以时间为线索,先从赣地的自然环境及人文生态着手,将考古材料与文献资料相结
园林景观是现代人们生活中不可或缺的重要组成部分,随着社会经济的发展,园林工程技术也越来越受到世人瞩目。广西丰景园林公司,坐落于南宁市,拥有城市园林绿化一级资质,是目