基于聚类与模型迁移的数据流半监督分类算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:liang6666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今大数据时代,数据高速无限产生,如何处理和存储海量数据成为一个巨大的挑战。数据源源不断地产生以及高速的特点,使得人类专家不能快速准确地给所有样本都打上标记。人工标记样本的代价十分昂贵且不切实际。因此,在真实的数据流环境中,往往只有少量标记样本和大量无标记样本,只使用标记样本训练得到的模型泛化能力低下,而且会浪费无标记样本的结构信息。同时,在数据流环境下,数据分布经常会发生变化,即在真实的数据流场景中往往伴随着概念漂移现象的发生。传统的机器学习算法都是基于静态的独立同分布的环境下,因此,并不能处理带有概念漂移的高速无限的数据流环境。在动态半监督数据流环境下存在两个主要的挑战:(1)根据半监督环境下数据流的特点,如何结合少量标记样本的标记信息和大量无标记样本的结构信息训练得到一个泛化能力强的组件分类器。(2)针对带有概念漂移的数据流半监督环境,无监督的概念检测、统计检测等方式存在一定局限性,如何设计合适的概念漂移检测机制准确检测概念漂移,及时调整组件分类器来适应概念分布的变化。综上考虑到动态数据流半监督分类问题带来的研究价值和挑战,本文的研究内容总结为以下两个方面:第一:本文提出了基于聚类的数据流半监督分类算法SCLNDT(Semi-supervised data stream classification algorithm of Clustering in the Leaf Node of Decision Tree)。本算法先利用标记样本建立决策树模型,将样本空间划分成多个区域,再在叶子节点所处的局部区域按照标记样本的类别分别进行聚类,接着利用无标记样本增量更新组件分类器各个叶子节点中的簇信息,簇中样本信息统一采用CF特征表示。构建的组件分类器泛化性能好,结构精简,保存了数据本身的内在结构和分布信息。本算法设计一个半监督学习算法扩充标记样本辅助进行概念检测。考虑到历史概念在未来一段时间可能重复出现,本算法涉及对重现概念的检测。大量实验结果证明本算法的有效性。SCLNDT算法的主要创新点在于提出半监督组件分类器的构建策略,为缓解仅用标记样本训练模型的欠拟合现象,算法使用无标记样本增量更新组件分类器中的簇信息。对于半监督环境下的概念检测,本文提出使用历史模型有效簇的知识结合标记样本设计半监督学习算法扩充标记样本辅助进行概念漂移检测。第二,基于半监督的数据流环境,本文提出了基于模型迁移的数据流半监督分类算法TLSCDT(Transfer Learning for Semi-supervised data stream Classification based on Decision Tree)。TLSCDT算法提出半监督学习算法扩充标记样本的数量,转半监督环境为监督环境进行模型训练。本文中半监督学习算法通过邻域阈值自适应算法计算出阈值,然后利用权重公式计算每个历史模型的权重,根据权重筛选历史模型和标记样本,找到无标记样本邻域范围内最近的标记样本,最终利用多数投票给出无标记样本的伪标记。对于集成池满的情况,本算法考虑保持集成池中的组件分类器之间的最大多样性对组件分类器进行剔除。对于历史模型的更新策略,本算法考虑使用到模型迁移技术。大量实验结果证明本算法的有效性。TLSCDT算法的主要创新在于提出邻域阈值自适应的半监督学习算法扩充标记样本数量,对于不同的数据集以及数据分布变化的数据流环境,本算法可以实时自适应获取邻域阈值,满足半监督数据流的实时性需求。
其他文献
图像超分辨指的是从低分辨率图像(Low Resolution Image,LR)中恢复出对应的高分辨率图像(High Resolution Image,HR)的过程。视频和图像已经成为现代人们接触世界的重要媒介,且图像技术在现实生活中也具有广泛应用,例如医学图像、监管与安全、短视频等。由于这些应用对图像清晰度要求较高,通过硬件设备提升分辨率的代价较大,且问题的不适定性增加了解决问题的难度,从而给出
学位
岩体是在长期复杂的地质作用条件下,自然形成的一种具有复杂结构的地质材料。岩体内存在着大量在自然环境下产生的节理、裂隙和夹层等天然软弱构造面。其中,节理作为一种典型的软弱结构面,广泛分布于岩体材料中。在工程荷载的作用下,节理面上可能会发生裂纹萌生、扩展和合并等现象,导致岩体工程的灾难性破坏。以往岩石力学的研究更关注于完整或含缺陷(断续节理)岩石在静态下的力学性能,而非具有贯通型节理的岩体。本文选制花
学位
海岸带地质灾害严重影响了沿海地区的发展。为分析国内外海岸带地质灾害风险评估研究现状、发展态势及为我国在这一领域内的科研及防灾减灾等工作开展提供借鉴,本文以Web of Science和中国知网数据库中的相关文献为基础,运用CiteSpace软件对该领域的国内外发文量、发文国家和关键词进行知识图谱分析,探讨其研究热点及演变趋势。研究结果表明:(1)国内外研究均呈增长趋势,我国是该领域主要发文国家之一
期刊
当今社会生产生活中,众多领域都将计算机视觉技术运用到了实际当中,如视频监控、机器人探测以及无人机侦察等。目前已有大量工作对正常照度目标检测技术进行了研究,但对低照度图像目标检测的研究却很少。在整体光照不足或局部光照不均的场景下捕获的图像普遍存在照度偏低、对比度不足和细节信息严重丢失等问题。这些问题致使低照度图像无法包含足够的信息量,同时低照度图像捕获条件相对苛刻,且目标标注难度较大,需要耗费大量的
学位
本文主要以课堂实践案例“探秘二分法”为例,界定和探讨了深度学习视域下的高中信息技术学科项目化学习,并从特点、目标、内容、过程、评价等方面逐一进行了剖析。
期刊
<正>该模式不再是简单地开设专区,而是从系统、从支付角度进行改革,解决药店集采药品进价高、进货难、无处方等问题,药店将深度参与集采。国家组织药品集中采购虽已走过三年历程,但目前基层定点医药机构集采药品、国家谈判药品配备率低,无法满足基层群众购药需求。为打通集采药品和国家谈判药品落地的“最后一公里”堵点,5月中旬,江苏省医疗保障局发布《2022年度江苏医保民生实事项目》,列举了12条惠民便民措施。其
期刊
肺癌是一种发病率高且死亡率高的恶性疾病。作为肺癌的一种早期症状,肺结节的出现预示着肺部细胞正在逐渐发生癌变。肺结节一般为椭圆形或不规则球形,不同大小、形状、密度分布、生长速度的肺结节对应着不同的肺癌发病率,因此,针对肺癌的早期诊断,肺结节检测是一种有效的方法。利用计算机进行肺结节检测方法的设计与优化一直是各领域专家学者不断探索的方向,它能够缓解因医生人工分辨而带来的医疗资源紧张的问题。随着深度学习
学位
从目前大同发掘出土的元代墓葬及壁画来看,以水墨山水特征为主的元代壁画与题材多样的辽金壁画呈现出完全不同的表现风格。大同地区墨色系壁画的流行与当时的绘画风格、宗教思想以及高压政权下的士人情感寄托有着必然的联系。墨色系壁画的出现与兴盛是汉族人士对世俗社会不公待遇的无声抵抗,也是他们表达内心愤懑情感的重要方式。
期刊
图匹配旨在建立两个图之间的结点映射关系,是一个经典的NP难组合问题。近几年,大量的研究者开始借助深度学习技术来构建端到端的可训练架构,以此对图匹配问题进行求解。这一端到端的管道架构被称为深度图匹配模型,其包含两个重要模块,图表示学习模块和图匹配问题求解器。然而,在目前深度图匹配模型研究中,存在着两个待解决的重要问题。第一,主流的深度图匹配模型通常对图匹配问题进行连续松弛,以使得模型可以基于梯度下降
学位
基于核心素养视域下“深度学习”的内涵、意义以及初中化学学科“深度学习”与“发展核心素养”的关系,以“知识问题挑战性与驱动性、情境创设愤悱化与生成化、问题解决自主化与迁移化”的理念设计了“化学实验测定与探究”课例。阐释了以真实情境为主线、聚焦活动、方法指引、素养观照与评价导向五线融合的深度学习教学模式。
期刊