大规模PU学习

来源 :南京大学 | 被引量 : 0次 | 上传用户:li5301251975
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于正样本和无标记样本的机器学习方法称为Positive and Unlabeled Learn-ing,简称 PU 学习。PU 学习在现实中有很多应用场景,例如某产品已有的用户数据可以视为正样本,企业须要基于这些正样本在海量未知用户中发掘潜在的新用户,该过程称为Lookalike扩展。本文根据应用场景的不同,将PU学习分为两类,一类是PU分类算法,一类是PU矩阵补全算法。第一类PU分类算法,主要针对某一特定的任务进行建模,例如某产品的Lookalike扩展。第二类PU矩阵补全算法,主要针对两类实体间的关系进行建模,例如单类协同过滤和多标记学习等应用。很多时候,除了能获取实体间的关系矩阵外,还有一些辅助的特征信息,例如单类协同过滤中,我们可获得用户或商品的特征数据,此时使用PU归纳式矩阵补全算法会取得更好的效果。已有的PU学习方法均是基于单机进行的,但是在大数据时代,数据规模不断增长,实用的机器学习算法应当具备可分布式的能力。本文在大数据处理平台Spark上,设计并实现了已有PU学习算法的分布式版本。此外,我们从多任务学习的方法中受到启发,提出了聚类PU归纳式矩阵补全的新方法。本文工作主要包括如下内容:一、实现了已有PU分类算法的分布式版本,包括分布式的两步骤方法和分布式代价敏感学习法,在企业级Lookalike数据集上,对比了各种策略的效果,并验证了算法具有一定的可扩展性。二、实现了已有PU归纳式矩阵补全算法的分布式版本,在推荐系统和多标记学习的标准数据集上进行了实验,验证了算法具有较强的可扩展性。三、提出了基于聚类思想的PU归纳式矩阵补全算法,实现了分布式版本,在推荐系统和多标记学习的标准数据集上,与已有的PU归纳式矩阵补全算法进行对比。新算法在AUC上获得较大提升,且具有一定的可扩展性。
其他文献
随着计算机技术尤其是网络技术越来越广泛的运用,e-制造(称为数字制造或网络化制造)已经成为机械制造企业现代化的标志,同时网络化的制造模式已成为制造业发展的必然趋势。数
互联网技术的飞速发展为现代社会带来了诸多便利。伴随着各类网站的出现,互联网所带来的巨大的信息量使得对数据的研究与运用逐渐成为互联网发展的潮流。传统"one-size-fits-
H.264是ITU-T的VCEG(视频编码专家组)和ISO/IEC的MPEG(活动图象编码专家组)的联合视频组(JVT:joint video team)开发的一个新的数字视频编码标准,它既是ITU-T的H.264,又是工SO/
汽车从发明到今天已经一个多世纪了。在现代社会,汽车已成为人们工作、生活中不可缺少的一种交通工具。汽车在为人们造福的同时,也带来大气污染、噪声和交通安全等一系列问题。