基于MPI的近邻距离加权偏标记学习并行算法

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:qipini
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现今,由于当前的技术和人力资源有限,许多应用领域无法获得样本与标签之间精确的对应关系,例如书法分类、新闻人物与其姓名的对应等。针对这样的情况,偏标记学习方法应运而生并且已经逐渐吸引了广大学者的目光。偏标记学习是弱监督学习的重要框架之一,主要是处理在训练集样本与标签对应关系不明确,仅仅知道样本的标签候选集的情况下,如何对未知样本进行分类的问题。当前,偏标记学习已经成功应用于生态信息学、图像分类和网页挖掘等多个领域,成为了如今众多学者研究的热点。随着科学技术的快速发展,互联网时代已经到来,QQ和微信等社交软件的用户使用量已经上亿,同时知名网站如淘宝、京东等用户量达到了惊人的数字,因此每天至少都有数百万条数据产生。为了充分利用这些大规模的数据,从中挖掘出有用的信息,偏标记学习方法的研究上不仅需要考虑算法的分类性能,也需要关注算法的运行效率。然而目前大多数偏标记学习方法计算量较大,不适合处理大规模数据。为了解决上述问题,本文对原有的基于样本的偏标记方法进行改进,并针对改进后的算法提出了其并行模型。本文的主要研究内容有以下两点:1.针对基于样例的偏标记学习方法IPAL(Instance-based Partial Label learning)需要对每个样本求取近邻及近邻的权值,耗时太多,不适用于求取大规模数据的问题,对IPAL中近邻权值的求取方式进行了改进,提出了一种基于近邻距离加权的偏标记学习方法。该模型使用样本及与其对应的近邻样本之间的距离来直接计算近邻样本的权值代替了原算法通过处理有约束的最小二乘问题来获取近邻样本权值的方式。在理论方面,通过分析原算法和改进的算法的时间复杂度证明了本文算法的有效性。在实验方面,使用5个真实数据集和4个UCI数据集进行对比实验,结果表明本文提出的算法在分类性能与原算法相近的情况下,提升了算法的运行效率。2.为了进一步提升基于近邻距离加权的偏标记学习方法的运行效率,设计了基于近邻距离加权的偏标记学习算法的并行模型,通过将数据平均分割并分派给多个进程,然后进程之间相互通信与合作来实现算法的分类性能的方式,缩短了算法的运行时间,其方法在MPI集群环境下实现。本文首先从时间复杂度的方面证明了并行模型的合理性和可行性,然后使用4个较大规模的数据集并开设不同的进程数来进行对比实验,得出了本文提出的偏标记学习方法并行模型与串行方法的分类准确率相同,但极大程度的提升了其运行速度,可以处理大规模数据的结论。
其他文献
作为改革的重大标志性、牵动性举措,“1+100”(每名团干部直接联系100名普通青年)工作已经在全团启动实施。团中央对这项工作有着明确定位:团干部应当履行的基本职责、完成的
近年来,新疆加大棉花资源的开发力度,将棉花的资源优势转变为纺织业的竞争优势。有力地推动了新疆经济的发展。本文在构建新疆纺织业竞争力评价指标体系的基础上,运用主成分分析
安全文化是企业安全工作的灵魂,是企业实现安全长治久安的强有力支撑,特别是对于煤矿这种高危行业而言更是如此。作为企业管理流程的基础细胞和最基层的生产管理组织,班组是
乡村文化旅游是各种特色旅游的一个细分市场,也是促进乡村经济发展,实现脱贫攻坚的有效手段。在乡村文化旅游方面,存在各具特色的旅游经营模式。广东省江门市棠下镇文化底蕴
叶帅国庆30周年讲话《关于建国以来党的若干历史问题的决议》同叶剑英代表中共中央、人大常委会、国务院在中华人民共和国成立30周年庆祝大会上的讲话,可以说具有某种“血缘
我国生猪养殖规模地域相对分散,农户养殖投机性较强,在价格高涨时大批次农户参与到生猪饲养的队伍中,从而造成了国内养殖成本的不断攀升,此外,生猪饲养具有周期性,以至于对未来市场
报纸
随着金融市场的快速发展和外资银行的进入,我国商业银行面临的市场竞争日益激烈,传统的市场营销手段已不足以应付目前市场竞争的态势。因此,应该在发展产品营销的同时,加快发展服
办学特色是衡量高等学校办学水平和办学实力的重要指标,也是各高等学校在办学过程中不断探索和努力追求的目标。对于办学历史不长的一般本科学校,办学特色的探索和形成更是一
中央和边陲之间历史上的紧张关系,在世界上很多国家持续发酵。对其中许多国家来说,过去10余年来美国的反恐战争加剧了这种紧张关系。$$ 美国的反恐战争,最具争议的一面也许就
报纸
减轻学生课业负担的几点做法吴忠市古城乡中心小学李瑞莲小学生的课业负担重,严重地影响了小学生的身心健康。国家教委三令五申要减轻学生过重的课业负担,为此,我在教学上采取了