论文部分内容阅读
基于正样本和无标记样本的机器学习方法称为Positive and Unlabeled Learn-ing,简称 PU 学习。PU 学习在现实中有很多应用场景,例如某产品已有的用户数据可以视为正样本,企业须要基于这些正样本在海量未知用户中发掘潜在的新用户,该过程称为Lookalike扩展。本文根据应用场景的不同,将PU学习分为两类,一类是PU分类算法,一类是PU矩阵补全算法。第一类PU分类算法,主要针对某一特定的任务进行建模,例如某产品的Lookalike扩展。第二类PU矩阵补全算法,主要针对两类实体间的关系进行建模,例如单类协同过滤和多标记学习等应用。很多时候,除了能获取实体间的关系矩阵外,还有一些辅助的特征信息,例如单类协同过滤中,我们可获得用户或商品的特征数据,此时使用PU归纳式矩阵补全算法会取得更好的效果。已有的PU学习方法均是基于单机进行的,但是在大数据时代,数据规模不断增长,实用的机器学习算法应当具备可分布式的能力。本文在大数据处理平台Spark上,设计并实现了已有PU学习算法的分布式版本。此外,我们从多任务学习的方法中受到启发,提出了聚类PU归纳式矩阵补全的新方法。本文工作主要包括如下内容:一、实现了已有PU分类算法的分布式版本,包括分布式的两步骤方法和分布式代价敏感学习法,在企业级Lookalike数据集上,对比了各种策略的效果,并验证了算法具有一定的可扩展性。二、实现了已有PU归纳式矩阵补全算法的分布式版本,在推荐系统和多标记学习的标准数据集上进行了实验,验证了算法具有较强的可扩展性。三、提出了基于聚类思想的PU归纳式矩阵补全算法,实现了分布式版本,在推荐系统和多标记学习的标准数据集上,与已有的PU归纳式矩阵补全算法进行对比。新算法在AUC上获得较大提升,且具有一定的可扩展性。