结合聚类的主动学习样本选择研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:dengwj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习主要研究从数据中生成“模型”,但是要生成有效地模型,则必须有足够的有标签数据。然而,在许多实际应用场景中,为数据打上标签是非常耗时和昂贵的。主动学习是解决这一问题的主流方法,其主动选择一些对于模型有“价值”的样本加入训练集,旨在以尽可能小的数据标记成本训练得到预期的模型。主动学习的核心是样本选择策略,合理的策略可以有效地降低数据标记成本。尽管现有的样本选择策略能够显著降低数据标记的量,但仍然有一些不足。例如,对有标签数据的利用不充分,或选择策略的效率整体较低。对有标签数据利用不充分的主要原因是基于聚类的主动学习算法通常使用确定的样本选择策略。这种策略忽略了待分类样本簇的结构信息,不可避免的会选择标记一些冗余的数据,此类数据对于模型的性能的提升微乎其微。选择效率较低的原因有两方面。一方面基于误差减少的主动学习算法需要考虑每个数据点可能的标签并推断其他数据点的标签以计算预期的泛化误差。另一方面没有有效的机制消除批处理模式中的信息冗余问题,每次迭代只能选择一个样本且需要重新训练整个模型。为了提高有标签样本的利用率和样本选择的效率,本文针对上述问题进行了深入调研与探索,并取得了以下成果:1)为提高有标签样本的利用率,避免标签的浪费。本文提出了基于优化密度聚类的自适应主动学习算法。首先,我们引入k近邻结构度量样本的局域密度,使得算法可以更好的挖掘数据的结构信息,提升了算法对于参数的鲁棒性。然后,提出了一种自适应关键样本选择策略。该策略可根据待分类样本簇的结构信息自适应地决定所需选择的样本数,从而避免了冗余数据的选择。最后,实验结果表明,所提出的方法与目前的已有方法相比,可以更加充分地利用有标签样本,使用更少的标签取得了更高的分类精度,并且具有良好的稳定性。2)为提高样本选择的效率和有效消除批处理模式中的信息冗余。本文提出了一种基于互信息的可拓展批处理主动学习算法。首先,我们通过快速聚类算法构建层次锚点图并将所有数据点分配给附近的锚点,约减了样本选择策略需要考虑的数据量,避免了在训练过程中增量地重新推断大量数据点的标签,极大地提升了样本选择策略的效率。其次,我们提出了基于互信息的批处理样本选择策略,该策略可以消除批处理模式中的信息冗余,降低算法的迭代次数,减少重复训练模型的时间开销,进一步提升了算法的整体效率。最后,实验结果表明,所提出的方法与目前的已有的方法相比,可以有效地消除批处理模式中的信息冗余,取得了更高的分类精度。
其他文献
自2003年来,韩国共实施了四次“英才教育振兴综合计划”,不仅为韩国的科技发展贡献了大量创新型人才,也使韩国逐步建立了相对完善的英才教育体系。该计划实施过程中遇到的问题及获得的经验对我国开展超常儿童教育具有一定的借鉴意义。本文对韩国英才教育的内涵、历史和政策演变、发展成效及面临的挑战等方面进行了系统介绍和分析,提出了对我国开展超常儿童教育的启示。
期刊
近年来,深度学习的发展使得多项计算机视觉任务达到了难以想象的水平。但是神经网络性能增强的代价是日益增加的网络计算成本和内存成本。这些代价严重限制了神经网络在一些移动平台上的部署和应用。因此,对神经网络进行模型压缩和加速逐渐成为一个亟待解决的问题。当前主流的模型压缩和加速的方法有剪枝、量化、知识蒸馏等等。其中剪枝是目前较为流行的方法。传统的通道剪枝方法通常分成三个步骤,首先训练一个参数冗余的网络,然
学位
复杂网络普遍存在于现实世界中,通过深入研究复杂网络有助于了解人类社会中的各种复杂系统。其中,边是网络的重要组成部分,但由于网络异质性,网络中仅有少数关键边对保证网络结构与功能起到决定性作用,通过识别复杂网络中的关键边能够以较低代价防御对有益网络的攻击或者打击有害网络以获得较大收益。然而,传统的网络中关键边识别方法从网络拓扑结构或信息传播角度出发手动设计单一度量指标或综合多个指标对边重要性进行评估,
学位
进化算法在最近受到了广泛的关注,成为优化领域的研究热点,而且在解决复杂优化问题上表现出了良好的性能。然而进化算法的性能高度依赖使用的交叉和变异算子,因此算子的选择和对应参数的设置成为影响算法性能的关键因素。但是算子的效果与问题特性有关,复杂优化问题大多具有多峰且不连续的景观信息,因此即使是解决同一问题,由于进化算法的随机性,每次运行得到的种群优化路径也是不同的,合适的算子和对应的最佳参数也会不同。
学位
深度学习模型的训练基于大量数据样本,这些数据的收集通常来源于多方,里面可能含有大量个人隐私数据,相比于把所有数据集中到一起,分布式学习可为用户提供更好的隐私保护。根据网络拓扑结构不同,分布式学习可分为有中心节点(参数服务器)和无中心节点(去中心化)两种。最近的研究表明去中心化算法具有较低的通信复杂度和与参数服务器算法相同的收敛速度。去中心化学习中,每个参与者与自己的邻居节点交互参数,这种情况下,即
学位
伴随互联网技术的出现,各类在线社交媒体平台逐渐兴起,人们开始倾向于通过社交平台进行信息交流。用户通过信息交流而产生的转发行为形成了信息级联,信息级联不仅包含用户的社交活动信息,也反映了用户的喜好、价值取向等。因此,基于信息级联,对用户社交数据信息进行挖掘并分析是一项有价值的研究工作。影响力最大化与影响力预测是社交信息研究的重要方面,影响力最大化研究中通过评估用户的影响传播范围能够了解信息扩散的必要
学位
车辆路径问题(Vehicle Routing Problem,简称VRP)是物流配送领域中研究最广泛的优化问题之一。在传统的VRP中,通常假设客户需求和运输成本是固定的,并且这些值在路线规划前已知。然而在实际应用中数据通常会存在一定的不确定性,此时由传统进化算法获得的解决方案在面对这些不确定性情况时,可能会产生一些超出预期的问题,例如,当客户的需求不确定时,由传统进化算法得到的解决方案可能会发生车
学位
PU(Positive and Unlabeled,简称PU)学习作为弱监督学习的一种,是当前机器学习的研究热点。其目的是从正样本和无标签样本中学习一个分类器,实现对未知样本的有效分类,近年来在不同领域得到了广泛的应用。然而随着PU学习应用的推广,真实应用场景中存在数据维度高以及数据包含噪音等问题,这使得现有的PU学习算法难以获得高性能的PU分类器。为此,本文针对PU学习中存在的上述问题,在多目标
学位
阿尔茨海默症(Alzheimer’s Disease,AD)是中老年人群中常见的进行性神经系统疾病,缺少有效的治疗手段,患者患病后逐渐由健忘发展到严重痴呆,最终导致死亡。当前缺乏AD的有效检测手段,很多患者直到晚期才被发现,如果能够提前预测AD,并介入治疗,能够有效延缓AD的发展进程,改善患者的生存质量。尤其是轻度认知障碍(Mild Cognitive Impairment,MCI),医疗界将其视
学位
报纸