数据流上的开放学习算法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:proudboy_linux_wzh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算能力的提高和越来越多的新算法被提出,机器学习技术已经开始广泛地应用在实际生活中,而相比于实验室环境,在将机器学习算法应用到现实场景时,我们仍然面临着很多需要解决的问题。例如,对于分类任务来说,标准的分类模型都是基于一个前提假设,即所有测试样本所属的类别在训练时都已经观察过,也就是具有所谓的“封闭”属性。然而更加符合实际情况的是,我们收集的数据集常常是动态变化的,可能会不断地发现新类别样本并需要将它们添加到已有数据集中,这就导致训练样本集可能无法覆盖到所有的类别信息,也就是真实应用场景往往具有“开放”属性。因此,在将标准模型用于现实场景时,很可能会出现训练过程中没有遇到过的类别样本,这就要求分类模型具有处理各种未知新类别的能力。此外,随着移动互联网和社交媒体的发展,收集到的可用数据也越来越多,并且出现了大量的实时流式数据,其特点是数据量大,数据产生速度快,并且潜在分布也可能随着时间而发生变化,对这类数据的学习也成为了亟待解决的问题。然而,因为流式数据本身的特点,很多传统的离线学习算法变得不再适用。本文针对数据流场景下的“开放”学习问题,通过分析和研究竞争学习过程,提出了两种不同设定下的开放学习算法,它们能够在流式数据集上进行训练,得到的分类模型在测试时能够处理可能出现的训练过程中没有覆盖到的未知类别样本。我们在人工数据集和真实数据集上将本文提出的“开放”学习算法与现有算法进行了对比实验,验证了算法的有效性。本文的主要工作包括:·阐述了需要开放学习算法的原因,然后对当前开放场景下的学习算法进行了总结,并分析了它们各自的优缺点和应用场景。·提出了一种基于单类学习的开放学习算法,将感兴趣的已知类别作为目标类,所有其他类别(包括已知类别和未知类别)作为非目标类,之后通过在目标类的样本数据流上训练单类模型来判断测试样本是否属于感兴趣的类别。·提出了一种基于分布学习的开放学习算法,首先通过无监督学习得到数据流的分布模型,然后利用样本的标记信息来区分各个分布区域。最终,我们得到了一个适用于数据流的开放学习模型,该模型能够判断测试样本属于哪种已知类别或者是属于某个未知类别。
其他文献
软件克隆检测致力于找出两段功能相似的代码段,其对软件系统的维护和发展起着非常重要的作用。目前该领域存在很多研究试图有效检测软件克隆,他们多是基于代码段的文本或结构
随着我国能源资源的不断消耗和生态环境的日益破坏,以盲目追求经济发展而忽略环境可持续的传统经济发展模式已经无法适应当前的经济“新常态”。“破解当前难题必须坚持创新
近年来,随着经济社会的发展,广大群众对高质量教育资源的需求日益高涨,社会各界对教育事业关注程度不断提高,各级政府不断加大对教育基本建设的投入力度,办学条件得到不断改
在信息量爆炸的时代,处理大量数据的能力变得至关重要。微电子技术的发展与成熟有助于应用新兴的人工智能服务和高性能计算的下一代产业的出现。这些数据密集型企业严重依赖
激光剥蚀是指将激光束聚焦后照射基板,基板材料吸收激光能量蒸发或转换成等离子体,实现从固体表面去除部分材料的过程。激光剥蚀效果与激光能量密度、波长、光束质量以及材料
近年来,我国高速铁路实现了跨越式大发展,但同时中西部地区地震频发,高速铁路简支梁桥的抗震性能越来越得到重视。但考虑到高速铁路多采用重力式桥墩,及其采用延性抗震设计的
13Cr马氏体不锈钢因其较高的性价比和良好的耐蚀性能,广泛应用于石油化工领域。13Cr不锈钢的应力腐蚀行为研究主要集中在常压CO2环境,对高压CO2和常压CO2含低浓度H2S环境研究
数控机床加工过程中,刀具的磨损会直接影响工件加工效果。对加工刀具磨损的及时检测,根据磨损程度进行刀补调整或刀具更换等操作,可以有效提高加工效率,降低加工成本。当前的
随着人工智能浪潮的到来,深度学习作为表示学习的一个重要分支,其发展大幅提高了视觉识别任务的最终性能。尽管有着大量的理论、学术研究,但在面对复杂应用环境以及计算资源
企业的生产经营会受到各种各样的因素的影响,经营中各种风险也是难以避免的。铅酸蓄电池以及电子零配件企业的财务风险都有一个逐渐暴露,逐渐恶化的过程,陷入经营危机的企业