【摘 要】
:
PU(Positive and Unlabeled,简称PU)学习作为弱监督学习的一种,是当前机器学习的研究热点。其目的是从正样本和无标签样本中学习一个分类器,实现对未知样本的有效分类,近年来在不同领域得到了广泛的应用。然而随着PU学习应用的推广,真实应用场景中存在数据维度高以及数据包含噪音等问题,这使得现有的PU学习算法难以获得高性能的PU分类器。为此,本文针对PU学习中存在的上述问题,在多目标
论文部分内容阅读
PU(Positive and Unlabeled,简称PU)学习作为弱监督学习的一种,是当前机器学习的研究热点。其目的是从正样本和无标签样本中学习一个分类器,实现对未知样本的有效分类,近年来在不同领域得到了广泛的应用。然而随着PU学习应用的推广,真实应用场景中存在数据维度高以及数据包含噪音等问题,这使得现有的PU学习算法难以获得高性能的PU分类器。为此,本文针对PU学习中存在的上述问题,在多目标进化优化框架下提出解决方法,以有效地提升在复杂PU数据下的PU分类器的性能。本文主要研究工作总结如下:(1)针对PU数据中特征维度高导致的维度灾难问题,本文提出了基于多目标进化算法的稀疏PU学习方法LMAO-PUL。对于高维PU数据下无标签样本的标签不确定性及维度灾难问题,LMAO-PUL利用交替优化技术来解决。具体而言,本文首先提出了损失矩阵,以衡量稀疏PU分类器在高维PU数据集上的性能。基于损失矩阵,LMAO-PUL分别对两个优化阶段进行建模,构建双目标优化模型。其中,第一阶段是构建PU模型,通过建立并优化真正类率和无标签样本的损失率两个目标,旨在解决无标签样本的标签不确定性挑战。在第一阶段的最优分类器确定了之后,第二阶段在此基础上使用稀疏度和误差率两目标来解决维度灾难问题。这两个阶段交替进行,最终得到高质量的稀疏PU分类器。实验结果表明,在10个高维度的PU数据集上,相比于当前高性能的PU学习算法,LMAO-PUL取得了较好的分类精度和稀疏度。(2)针对PU数据中的噪音和冗余样本问题,本文提出了基于多目标进化算法的鲁棒PU学习方法BPUSS-MOEA。PU数据下的噪音与冗余样本受无标签样本的影响难以识别,对此本文将鲁棒PU学习转化为双目标PU样本选择问题,通过使用选择后的PU样本来构建鲁棒PU分类器。为了解决此双目标优化问题,本文设计了一种双编码的多目标进化算法。其中,BPUSS-MOEA使用二进制编码来识别“干净”的PU样本,同时使用实数编码来表示无标签样本的预测标签及每个PU样本被选择为“干净”样本的概率。针对上述双编码的特点,本文提出了一种基于双编码的子代生成策略以产生具有竞争性的子代个体。此外,为了进一步提高算法的收敛性能,BPUSS-MOEA提出了基于双编码的种群初始化策略。实验结果表明,在不同噪音下的PU数据中,与已有的PU学习算法相比,本文所提的方法能够获得更加鲁棒性的分类效果。
其他文献
目标检测,作为计算机视觉领域的一个重要研究分支,旨在用边界框表示目标的位置,并给出目标相应的类别。现阶段,基于水平边界框表示的目标检测器在自然场景中的轴对齐图像上取得了优异的检测性能。但是对于遥感图像中存在的目标任意方向、密集排列、背景杂乱、尺寸小、长宽比高等现象,使用水平边界框表示目标会出现包含过多背景信息以及前景背景信息混淆的现象。这两种现象皆会降低检测器的精度。由此可见,如何设置合适的表示形
随着云计算和机器学习技术的兴起,数据采集和数据挖掘变得更加普遍,决策树算法也成为了数据挖掘中最常见的分类方法之一,广泛应用在医疗诊断、信用风险评估等领域。然而在决策树训练的过程中,一些数据的收集会涉及到人们的隐私信息,这些隐私数据的泄露可能会直接冲击个人利益,甚至触犯法律条款。如何在决策树训练的过程中有效地保护用户隐私成为了近年来非常有意义的研究内容。目前许多传统的隐私保护决策树训练方案是通过参与
图像分类是计算机视觉领域的重要问题,有着各种各样的应用。在图像分类领域,这些年涌现了许多算法。其中,核方法有着以下优势:1)可以将低维样本特征映射到高维空间,使原本线性不可分的特征在高维空间中线性可分;2)避免向量在高维空间中的复杂内积计算;3)有效减少了计算复杂度的优势。因此,本文围绕核方法,给出了两种图像分类方法。主要工作总结如下:(1)高斯过程分类是机器学习领域中的一类有监督模型,而其中的协
自2003年来,韩国共实施了四次“英才教育振兴综合计划”,不仅为韩国的科技发展贡献了大量创新型人才,也使韩国逐步建立了相对完善的英才教育体系。该计划实施过程中遇到的问题及获得的经验对我国开展超常儿童教育具有一定的借鉴意义。本文对韩国英才教育的内涵、历史和政策演变、发展成效及面临的挑战等方面进行了系统介绍和分析,提出了对我国开展超常儿童教育的启示。
近年来,深度学习的发展使得多项计算机视觉任务达到了难以想象的水平。但是神经网络性能增强的代价是日益增加的网络计算成本和内存成本。这些代价严重限制了神经网络在一些移动平台上的部署和应用。因此,对神经网络进行模型压缩和加速逐渐成为一个亟待解决的问题。当前主流的模型压缩和加速的方法有剪枝、量化、知识蒸馏等等。其中剪枝是目前较为流行的方法。传统的通道剪枝方法通常分成三个步骤,首先训练一个参数冗余的网络,然
复杂网络普遍存在于现实世界中,通过深入研究复杂网络有助于了解人类社会中的各种复杂系统。其中,边是网络的重要组成部分,但由于网络异质性,网络中仅有少数关键边对保证网络结构与功能起到决定性作用,通过识别复杂网络中的关键边能够以较低代价防御对有益网络的攻击或者打击有害网络以获得较大收益。然而,传统的网络中关键边识别方法从网络拓扑结构或信息传播角度出发手动设计单一度量指标或综合多个指标对边重要性进行评估,
进化算法在最近受到了广泛的关注,成为优化领域的研究热点,而且在解决复杂优化问题上表现出了良好的性能。然而进化算法的性能高度依赖使用的交叉和变异算子,因此算子的选择和对应参数的设置成为影响算法性能的关键因素。但是算子的效果与问题特性有关,复杂优化问题大多具有多峰且不连续的景观信息,因此即使是解决同一问题,由于进化算法的随机性,每次运行得到的种群优化路径也是不同的,合适的算子和对应的最佳参数也会不同。
深度学习模型的训练基于大量数据样本,这些数据的收集通常来源于多方,里面可能含有大量个人隐私数据,相比于把所有数据集中到一起,分布式学习可为用户提供更好的隐私保护。根据网络拓扑结构不同,分布式学习可分为有中心节点(参数服务器)和无中心节点(去中心化)两种。最近的研究表明去中心化算法具有较低的通信复杂度和与参数服务器算法相同的收敛速度。去中心化学习中,每个参与者与自己的邻居节点交互参数,这种情况下,即
伴随互联网技术的出现,各类在线社交媒体平台逐渐兴起,人们开始倾向于通过社交平台进行信息交流。用户通过信息交流而产生的转发行为形成了信息级联,信息级联不仅包含用户的社交活动信息,也反映了用户的喜好、价值取向等。因此,基于信息级联,对用户社交数据信息进行挖掘并分析是一项有价值的研究工作。影响力最大化与影响力预测是社交信息研究的重要方面,影响力最大化研究中通过评估用户的影响传播范围能够了解信息扩散的必要
车辆路径问题(Vehicle Routing Problem,简称VRP)是物流配送领域中研究最广泛的优化问题之一。在传统的VRP中,通常假设客户需求和运输成本是固定的,并且这些值在路线规划前已知。然而在实际应用中数据通常会存在一定的不确定性,此时由传统进化算法获得的解决方案在面对这些不确定性情况时,可能会产生一些超出预期的问题,例如,当客户的需求不确定时,由传统进化算法得到的解决方案可能会发生车