基于邻域依赖度的在线流特征选择方法研究

来源 :闽南师范大学 | 被引量 : 0次 | 上传用户:winter2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择作为一种重要的数据预处理方法,可以有效地降低模型的训练时间和提高学习性能。然而,随着大数据时代数据产生与收集速度的急剧提升,传统特征选择算法面临着严峻挑战:(1)急剧增长的数据具有维度高、样本少的特点。(2)在实际应用中,无法提前获取整个特征空间,且特征以流的形式进入特征空间,具有动态性。因此,传统的批量处理的特征选择模式已无法满足大数据时代对于算法时间复杂度的要求。针对高维数据和特征空间未知场景的在线特征选择具有重要的研究意义和应用价值。本文在研究现有的在线流特征选择算法的基础上,针对其中存在的问题和不足,提出了两种新的在线流特征选择算法。主要研究工作如下:(1)联合邻域边界的在线流特征选择。目前,在很多现实应用中普遍存在特征随着时间动态地挨个流入特征空间的场景。然而,当前基于邻域粗糙集理论所提出的在线流特征选择算法,在计算特征依赖度时,仅将正域中包含的信息视为有效信息,从而忽略了在噪声数据较少的情况下,边界区域中所包含信息的有效性。本文在邻域粗糙集的基础上,联合正域和边界信息对依赖度函数进行重新定义。在此基础上提出三种在线评估特征的准则。接着,本文设计了一种联合邻域边界的在线流特征选择算法OFS-JNB(Joint Neighborhood Boundary for Online Streaming Feature Selection)。最终,通过与其他在线流特征选择算法进行对比实验,结果表明该算法所选特征集合具有较优的分类性能。(2)基于特征交互的在线流特征选择。在许多实际应用当中,特征通常随着时间逐个动态地流入特征空间,同时由于一些现实原因导致研究对象的样本量非常少,从而使数据呈现高维小样本的特点。然而,传统的在线流特征选择方法侧重于相关特征、不相关或冗余特征,忽略特征之间的交互性,从而不能高效处理高维小样本数据问题。本文基于特征交互性原理提出了一种基于邻域粗糙集的特征交互定义。其次,基于特征交互重新设计了在线重要性分析和在线冗余性分析策略,并提出一种新的基于特征交互的在线流特征选择算法OFSI(Online Streaming Feature Selection Based on Feature Interaction)。与6种对比算法在11个数据集上的实验结果显示,本文所提算法OFSI明显优于其他最先进的在线流特征选择方法。
其他文献
图G的完美匹配图是以图G的每个完美匹配作为顶点并且两个顶点相邻当且仅当这两点对应于G中两个完美匹配的对称差恰好是一个圈,记其为PM(G).如果PM(G)是完全图,则称G是完美匹配紧邻的(perfect matching compact),简称G是PM-紧邻的.本文主要研究几类图的PM-紧邻性质.在第一章中,主要介绍研究背景及PM-紧邻图的研究进展.第二章主要阐述一些基本术语及用到的引理.第三章对一
学位
一个至少有两个点的连通图G,当其任意一条边都属于G的某个完美匹配,则我们称图G是匹配覆盖图,G中所有完美匹配的关联向量,通过整数线性组合形成的空间,称为图G的匹配格。若匹配覆盖图G满足完美匹配数等于匹配格的维数,则称其为匹配覆盖极值图。当图任意去掉两个点不交的匹配交错圈后,剩下的图无完美匹配,则称该图满足PM紧邻。当匹配覆盖图G中的一条边满足G-e仍然是匹配覆盖的,则我们称边e是可去的。称图G:=
学位
计算思维是信息技术课程的核心素养之一,培养学生计算思维能够有效提高学生问题解决的能力。2020新颁布的《中等职业学校信息技术课程标准》将计算思维作为信息技术学科核心素养,探索学生计算思维的培养路径进入实质性推进阶段。于此同时,以人工智能技术为代表的科学技术飞速发展,人工智能教育和编程教学正逐步走进中职信息技术课堂。中等职业教育作为高中阶段教育的重要组成部分,在发展现代职业教育中具有基础性作用,因此
学位
近年来,随着科学信息技术的高速发展,VR技术早已经进入教学领域,实现教育手段从文字到二维图像、从多媒体视频到虚拟现实的变革是必然趋势。在VR条件下情境教学不仅能极大激发学生的学习兴趣,而且能培养学生独立的探究精神和创造能力,提升美术核心素养,促进人的全面发展,然而在高中美术学科的应用和探索仍较为薄弱。笔者拥有数年VR行业从业者的实践工作经验,并结合情境教学的相关理论为基础,以漳州市第二中学高中美术
学位
移动边缘计算(Mobile Edge Computing,MEC)已经成为5G网络的关键技术之一,能够提供一个强大的平台以解决未来网络的时延、能耗和容量等问题。面对不可忽视的能耗问题,如何通过对资源发现、资源分配、功率优化和任务卸载等关键问题的研究,破解高能耗难题,提高MEC系统的能源效率,显得尤为重要。然而,当前对这些问题的研究都是单独优化,或者部分联合优化,作为整个MEC系统的一部分,有必要对
学位
依据Pfirrmann分级标准对腰椎间盘退变(LDD,lumbar disc degeneration)进行诊断时往往存在多义性问题,即影像医师往往在相邻退变等级的判断中存在分歧或不确定性。目前鲜有文章关注LDD多义性诊断问题。本文基于核磁共振成像技术(MRI,Magnetic Resonance Image)检测到的腰椎间盘代谢组学数据,应用决策论中量化主观概率的区间对分法以及标签分布学习等方法
学位
随着信息技术日渐成熟,数据的规模日益扩大,主要表现为数据的样本和特征两个维度上的急剧增长,传统的机器学习和深度学习方法面临着巨大挑战。一方面,特征维度上的增长使得冗余特征大量增加,机器学习难度上升,效率低下。另一方面,样本维度上的增长使得样本数量增加后数据的类别数量也随之增加,数据分类精度骤然下降。针对特征维度方面的问题,本文通过优化集合间的距离计算公式提高了传统模糊粗糙集算法的效率,实现了对高维
学位
粗糙集模型作为一种重要的粒计算模型,是处理数据的重要工具.随着粗糙集相关理论的不断完善,粗糙集数据分析已经广泛应用于机器学习、模式识别、数据挖掘等领域.大数据时代已经到来,各行各业面临着要处理海量且复杂的数据的问题.那么如何对大数据进行有效筛选并用于大规模数据分析,是本文研究的主要内容.在实际生活中,由于数据来源的多样性,信息系统常出现集值型数据,在集值信息系统上建立局部粗糙集模型,从而进一步对集
学位
互联网和信息技术的发展带来数据的爆炸式增长,面对如此高维且冗余的数据集,如何从中获取精简可靠的信息成为关键。特征选择作为一种有效的数据预处理方式,能选取最具区分能力的特征子集,近来受到了广泛关注。传统的特征选择算法要求特征空间是静态的,算法伊始即获得全部特征,这显然与实际应用场景不符。例如,微博每分钟都会有新热点话题出现,新话题的产生和旧话题的消亡都表明特征空间是动态未知的而非静态已知的。特征空间
学位
超分辨率的任务是将低分辨率图像恢复为高分辨率图像或多幅图像。它是计算机视觉和图像处理中的一个经典而具有挑战性的任务。该技术应用领域非常广泛,例如医学图像重建、人脸、遥感与全景视频超分辨率、无人机监控和高清电视等。随着5G通信技术的出现,更高分辨率的图像或视频可以在更短的时间内进行传输。然而,大量视频在采集、传输和保存的过程中会遇到各种不同程度因素的干扰,导致最终的视频质量较差,需要对低分辨率视频进
学位