论文部分内容阅读
现今,由于当前的技术和人力资源有限,许多应用领域无法获得样本与标签之间精确的对应关系,例如书法分类、新闻人物与其姓名的对应等。针对这样的情况,偏标记学习方法应运而生并且已经逐渐吸引了广大学者的目光。偏标记学习是弱监督学习的重要框架之一,主要是处理在训练集样本与标签对应关系不明确,仅仅知道样本的标签候选集的情况下,如何对未知样本进行分类的问题。当前,偏标记学习已经成功应用于生态信息学、图像分类和网页挖掘等多个领域,成为了如今众多学者研究的热点。随着科学技术的快速发展,互联网时代已经到来,QQ和微信等社交软件的用户使用量已经上亿,同时知名网站如淘宝、京东等用户量达到了惊人的数字,因此每天至少都有数百万条数据产生。为了充分利用这些大规模的数据,从中挖掘出有用的信息,偏标记学习方法的研究上不仅需要考虑算法的分类性能,也需要关注算法的运行效率。然而目前大多数偏标记学习方法计算量较大,不适合处理大规模数据。为了解决上述问题,本文对原有的基于样本的偏标记方法进行改进,并针对改进后的算法提出了其并行模型。本文的主要研究内容有以下两点:1.针对基于样例的偏标记学习方法IPAL(Instance-based Partial Label learning)需要对每个样本求取近邻及近邻的权值,耗时太多,不适用于求取大规模数据的问题,对IPAL中近邻权值的求取方式进行了改进,提出了一种基于近邻距离加权的偏标记学习方法。该模型使用样本及与其对应的近邻样本之间的距离来直接计算近邻样本的权值代替了原算法通过处理有约束的最小二乘问题来获取近邻样本权值的方式。在理论方面,通过分析原算法和改进的算法的时间复杂度证明了本文算法的有效性。在实验方面,使用5个真实数据集和4个UCI数据集进行对比实验,结果表明本文提出的算法在分类性能与原算法相近的情况下,提升了算法的运行效率。2.为了进一步提升基于近邻距离加权的偏标记学习方法的运行效率,设计了基于近邻距离加权的偏标记学习算法的并行模型,通过将数据平均分割并分派给多个进程,然后进程之间相互通信与合作来实现算法的分类性能的方式,缩短了算法的运行时间,其方法在MPI集群环境下实现。本文首先从时间复杂度的方面证明了并行模型的合理性和可行性,然后使用4个较大规模的数据集并开设不同的进程数来进行对比实验,得出了本文提出的偏标记学习方法并行模型与串行方法的分类准确率相同,但极大程度的提升了其运行速度,可以处理大规模数据的结论。