基于多标签类属属性的概念漂移检测算法研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:zyx271724361
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着网络技术的蓬勃发展,数据以数据流的形式大量产生。对于数据流的研究受到越来越多的学者重视。与此同时,在传统的机器学习分类框架下,每个实例分配一个单独的标签。然而,在真实世界中的数据常常被分配到多个不同的类别中,所有的这些类别构成一个实例的标签集合,如果省略其中一个标签,实例的信息就会不完整。为了应对真实数据的多义性,多标签学习任务应运而生。现实数据环境下,多标签学习任务由于存在大量冗余特征导致其计算复杂度提升,分类性能降低。一种有效的解决方式是对多标签数据进行特征提取,以消除冗余特征。其中,基于类属属性的多标签学习算法通过提取标签间的相关性来完成标签特征选择及分类任务,但是这类算法缺乏对实例间相关性的重视。此外,现实世界中每时每刻都在产生大量的数据,这些数据大部分都是以数据流的形式存在。对于多标签数据流的研究也引起越来越多的重视。围绕上述问题,本文展开如下工作:1.针对现有多标签学习算法缺乏对实例相关性的考虑,提出了学习类属属性及实例相关性的分类算法,在构建模型时不仅考虑标签相关性还考虑实例特征的相关性。本文通过构建相似性图,学习实例特征空间的相似性,将实例相似性信息加入到模型训练中。实验结果表明,本文提出的算法能够更有效地提取类属属性,具有更好的分类性能。2.针对现有的概念漂移检测方法大多集中于单标签数据流,难以满足多标签数据流概念漂移检测的问题,本文提出了一种分层校验的多标签数据流概念漂移检测算法。提出的算法包括检验层和校验层,检验层通过对数据分布变化的检测来判断是否发生概念漂移,校验层通过判断标签混淆矩阵的变化程度来验证是否真正发生了概念漂移。在真实多标签数据集和合成多标签数据集等14个数据集上进行实验,与现有方法相比,本文提出的分层校验算法在Subset accuracy、Jaccard similarity和F-measure等指标下表现更优。实验结果表明,提出的算法能够有效的检测到概念漂移,分类性能得到了提升。
其他文献
随着互联网、信息技术及存储技术的快速发展,数据量呈指数增长,获取大量有标记数据样本十分困难,而获取大量未标记数据样本相对容易。半监督学习和迁移学习都能够利用少量已
合理限度内的私力救济为民法所认可,但过限的私力救济是否必然成立犯罪?本文将关注点集中于权利行使与财产罪之关系,力图在探讨法秩序统一性、刑法与前置法关系、财产罪有因性与无因性问题的基础上,对二者关系形成较为体系的类型化梳理,从违法相对论角度梳理相对普适的判断基准和逻辑进路,即评价财产罪时是否纳入民事基础关系要素,如果纳入,该要素位于评价体系的哪一层面,其评价效力如何?本文阐述之理论主要分为三个板块:
荧光传感器由于具有特异性强、灵敏度高和操作简便快捷等优点,现已广泛应用于环境化学、生物化学和医学诊断等学科中。由于剧毒性、持久性和生物富集性等特点,汞被认为是环境
图像超分辨率通常是指以低分辨率图像为线索,经过推理计算获取边缘清晰、细节合理的高分辨率图像的过程。本文主要对以单幅图像为输入的情况进行研究和改进。由于清晰明确的
水声传感网络采用声波作为主要通信方式,是当今应用较为广泛的水下组网方式。然而由于水声信道具有长和多变的时延、窄带宽、多径效应等问题,水声传感网络的发展面临严峻的挑
癫痫(Epilepsy,EP)是一种常见的以短暂性中枢神经系统功能失常为特征的脑部疾病,具有反复发作和难以预测等特点。癫痫发作不仅严重影响癫痫患者的正常生活,而且给患者的家庭
为满足日益增长的终端设备的接入需求,802.11工作组提出IEEE 802.11ah标准来支持大规模设备的接入。然而,大规模设备同时接入网络,会导致严重的信道冲突。为此,802.11ah在媒
在写作的过程中,错误是很常见的。对写作纠错反馈的研究一直都是二语习得领域的一个重要问题。写作是学生必须掌握的一门技能,同时也是教师在英语教学过程中重要的一部分。在英语教学过程中,写作纠错反馈扮演了非常重要的作用,它也是学生输入的主要方法,也是语言输出的基本保证。书面纠正反馈的效果直接影响学生写作水平的提高,也反映了教师的教学效果。虽然国外关于学生写作纠错反馈的偏好与教师实践进行了大量的研究,但是中
目的:测量并根据右主支气管(RMB)长度,预测支气管封堵器(BB)用于左肺单肺通气(OLV)时的临床效果,为麻醉医师合理选择BB进行肺隔离提供理论依据。方法:选择择期行胸腔镜下右肺叶切除术的患者46例,ASAⅠⅡ级,男女不限,年龄3070岁,BMI 1929kg/m2。根据患者术前胸部CT扫描图像,利用气道多平面重建(MPR)技术测量RMB长度,将RMB长度≤1.5cm的患者纳入A组,将RMB长度
迁移学习自机器学习研究之始就备受关注,其旨在令算法获得如图人类举一反三一般的强泛化能力。领域适应是迁移学习的其中一个分支。给定两个相似性较强但样本分布不同的领域,