论文部分内容阅读
排序学习(Learning To Rank)是用于预测列表元素排序关系的有监督机器学习方法。在推荐系统经过协同过滤或用户模型召回推荐候选集后,传统推荐系统对推荐列表的排序只是简单地根据用户和推荐物品之间的匹配程度来进行排序,而排序学习则可以根据用户点击日志来训练排序模型进而对推荐列表进行排序。排序学习综合考虑了各个影响因素,具有更好的扩展性。本文系统研究了Pointwise排序学习,并将其在新闻推荐系统中加以实现。研究目标是提高大规模数据中样本处理和特征处理的效率,以及改善所研究模型的推荐效果。本文中设计的新闻推荐系统在如下四个方面得到了性能的提升:(1)针对新闻推荐系统大规模数据的情况,本文利用hadoop的Map-Reduce框架,并行地将用户日志和新闻数据拼接成用于Pointwise排序学习模型训练的样本,并且在Mapper到Reducer之间采用二次排序机制,提高了数据拼接效率。(2)在抽取特征后,本文采用最小描述长度准则(Minimum Description Length Principle)方法对连续特征进行了离散化处理。实验结果表明,单个特征离散化后的模型训练结果,较之于离散化前具有更好的单特征AUC值。(3)针对Filter特征选择方法速度快但效果差,Wrapper特征选择方法效果好但计算量大的特点,本文提出了一种结合Filter和Wrapper的单向循环特征选择方法。该方法分为两个阶段:第一阶段是Filter过程,计算出每个特征的单特征AUC值,再过滤掉单特征AUC值小于特定阈值的特征;第二阶段是Wrapper过程,对第一阶段过滤后的特征集合按单特征AUC值大小顺序排列,采用单向循环方式按序对特征进行一轮一轮地筛选评估,直到某一轮特征子集不再更新(也即,达到收敛状态)为止。实验结果表明,该方法与贪心策略的后向搜索得到相同的最优特征子集,AUC值相对原特征全集训练结果提升了2.9%,并且,该方法大幅度减少了计算量,计算量仅为后向搜索方法的33.3%。(4)在经过特征选择得到新闻特征的最优特征子集后,将用户特征和新闻特征组合成为新的特征,加入到原最优特征子集中,达到个性化效果,实验结果表明加入该类组合特征后,模型预测效果指标AUC值相对提升了3.6%。