【摘 要】
:
随着信息技术的高速发展,大数据时代的数据呈现出爆发式增长、形式复杂多样以及语义日益丰富的特点,传统的单标记数据无法描述一个对象同时属于多个类别的问题,需要利用多标记学习来描述这类数据。此外,面向多标记学习中的多标记数据高维性是广泛存在的,由于侦测手段和隐私保护等因素,其中包含着冗余、不相关的以及不完备的信息,这严重影响了多标记分类的性能。本文针对多标记学习中的高维数据特征选择问题,扩展邻域粗糙集理
论文部分内容阅读
随着信息技术的高速发展,大数据时代的数据呈现出爆发式增长、形式复杂多样以及语义日益丰富的特点,传统的单标记数据无法描述一个对象同时属于多个类别的问题,需要利用多标记学习来描述这类数据。此外,面向多标记学习中的多标记数据高维性是广泛存在的,由于侦测手段和隐私保护等因素,其中包含着冗余、不相关的以及不完备的信息,这严重影响了多标记分类的性能。本文针对多标记学习中的高维数据特征选择问题,扩展邻域粗糙集理论及其模型,从邻域粒化的思想出发研究多标记邻域决策系统中的不确定度量方法,结合机器学习算法,基于邻域粗糙集理论提出了一些多标记特征选择算法,通过理论分析与实验对比,测试和验证所提算法的性能。本文主要的研究内容包括:(1)针对多标记学习中数据的多样性与复杂性导致特征选择算法分类精度低、计算复杂度高等问题,提出了一种基于多标记Relief F和邻域互信息的多标记特征选择方法。首先,为了提高Relief F算法在多标记特征选择中的稳定性,针对多标记数据在Relief算法中分别定义了最近的同类样本和异类样本的距离,以及同类和异类样本的平均差异系数,结合Jaccard相似系数,构造一种新的特征权重更新公式,进而设计了多标记Relief F算法,初步消除不相关的特征,以降低多标记特征选择的计算复杂度。然后,在多标记邻域决策系统中研究每个标记下样本的间隔,以此定义邻域参数来粒化样本,将代数与信息观点相结合,研究了基于多标记邻域熵的不确定性度量方法,给出新的邻域互信息概念并推导其相关的定理与性质。最后,基于多标记邻域熵度量构建了一个特征优化函数,评估多标记邻域决策系统中的候选特征,进而设计了一种基于多标记Relief F和邻域互信息的多标记特征选择方法,来有效剔除冗余特征,获取最优特征子集。在13个多标记数据集上的实验结果表明,所提算法能够有效消除冗余特征并提高分类精度。(2)为了解决传统多标记学习中特征选择算法容易忽略标记间的相关性,以及多数基于邻域粗糙集模型的特征选择算法无法从理论上分析可数无限集合等问题,提出一种基于二进制粒子群算法和多标记邻域粗糙集的特征选择方法。首先,为了克服传统基于相关性的特征选择算法忽略了标记之间相关性的问题,提出了单个标记与标记集合以及标记集之间的两种标记相关性,同时结合熵度量,研究了标记之间的相关性并设计了改进的基于相关性的特征选择评价函数,以此作为二进制粒子群算法中的适应度函数,进而设计了一种混合过滤与封装策略的多标记特征选择算法,初步消除冗余特征以降低后续算法的计算复杂度。然后,将Lebesgue测度引入多标记邻域粗糙集,构造了基于Lebesgue测度的多标记邻域粗糙集模型,给出了基于Lebesgue测度的邻域近似精度和邻域依赖度的计算方法,度量多标记邻域决策系统中的相关性和不确定性,并推导相关性质。最后,在多标记邻域决策系统中提出了一种前向启发式搜索的多标记特征选择算法以提高多标记分类性能。在13个多标记数据集上的实验结果表明,该算法能有效地选出对分类最具有鉴别能力的特征。(3)针对多标记学习的实际应用中经常面临多标记数据存在标记缺失,导致多标记分类具有很大的复杂性和歧义性的问题,提出了一种基于多标记模糊邻域粗糙集和最大相关最小冗余的缺失标记特征选择方法。首先,为了解决多标记数据中标记缺失的问题,在线性回归模型中定义了样本的相关系数,设计标记增补矩阵和标记特定特征矩阵来恢复缺失的标记。然后,基于多标记邻域粗糙集模型和模糊邻域粗糙集模型建立多标记模糊邻域粗糙集模型,由此基于间隔定义模糊邻域参数、模糊邻域相似系数和模糊邻域信息粒度;从代数观和信息观出发,提出了基于模糊邻域熵的不确定性度量方法,在此基础上定义了结合标记相关性的最大相关最小冗余准则以评估候选特征性能。最后,设计了一种基于多标记模糊邻域粗糙集的特征选择算法,有效改善带有缺失标记的多标记数据的特征选择的分类性能。在20个不同缺失比率的多标记数据集上的实验结果表明,该方法不仅能够有效地恢复缺失标记,还可以获得具有较高分类性能的特征子集。
其他文献
<正>幼儿园区域游戏活动的主体是幼儿,所以我们对班级区域的创设、区域游戏内容的确定等都来源于幼儿的需与求。在幼儿一日生活中,教师要有一双会发现的眼睛、一对会倾听的耳朵,随时观察幼儿现有的能力发展水平,倾听幼儿的心声,关注幼儿的兴趣倾向与需求等,用"儿童视角"进行分析,通过幼儿个体、小组或集体之间的讨论、思考等形式将教师"想"与"给"的区域设计理念,逐渐转变为幼儿"要"与
无线电能传输技术提供了一种新的电能输送方式,在无人机供电、便携式设备供电等应用领域倍受关注。无线电能传输技术可分为近场和远场电能传输两类。在近场电能传输中,磁耦合谐振式无线电能传输技术具有效率高、功率大、传输距离适中等特点,是目前最具应用前景的无线电能传输技术之一。磁耦合谐振式无线电能传输技术要求发射端谐振器与接收端谐振器工作在同一谐振频率处以实现能量的高效传输,然而,在实际工程应用中,谐振器电路
随着现代电子技术的快速发展,空间中充满了电磁波,低强度的电磁辐射是不会对人体造成太大的影响,如果人体长期暴露于高强度的电磁辐射中是会对人体健康造成影响的,例如会影响儿童智力的发育、人体免疫力下降、循环系统、新陈代谢和生殖功能也会受到影响等。葡萄糖氧化酶(GOD)可以抑制人体中霉菌毒素的积累,提高人体的免疫力,还可以帮助人体进行消化和排毒。同时葡萄糖氧化酶在生物传感器和葡萄糖检测等方面也有重要应用。
医学图像分割是医学诊疗与影像分析的关键环节,为医学组织研究和临床诊断提供支持。然而医学图像受设备和人体内部构造的影响易产生噪声和灰度不均等情况,且不同患者器官的大小和形状不同,给医学图像的病灶分割带来挑战。现有的活动轮廓模型方法不需要训练集且能较好利用目标边缘信息,但对初始轮廓和噪声较敏感,在处理灰度不均图像时分割不够精确。卷积神经网络能够分割更复杂的医学图像,但需要大量的人工标记,网络的特征提取
多媒体中图像应用较为广泛,其中部分数字图像涉及到商业机密与个人隐私等方面的信息。因此,涉密图像(secret)在传输与存储过程中的安全保护是现今新兴媒体与互联网通信中亟需解决的一个重大问题。现今图像隐写术再次成为研究者关注的热点领域之一。图像隐写术是通过所设计的代价函数或模型将涉密信息嵌入到载体图像(cover)中,同时保持载密图像(stego)的视觉完整性,以此完成隐蔽通信。传统的图像隐写术是通
为了更方便地营造一个健康良好的居家环境,本系统研究了一种基于嵌入式系统RT-Thread的室内环境监测系统,实现了远程监测环境,包括温湿度、光照强度、CO2、甲醛、挥发性有机物、PM2.5、PM10等环境因素的测量,可以更好的监测生活环境。论文中阐述了监测系统的硬件和软件设计,涵盖了各个模块详细的功能探索。本系统由多种独立的传感器采集模块、开发板带有的WIFI通讯模块和液晶屏显示模块以及物联网平台
雷电是较为危险的一种自然灾害,严重时会对我们人身安全及财产构成威胁。随着社会对电力需求的日渐增大,输电线路数量和覆盖面也随之增多变广,极易受到雷击的破坏,导致电力系统瘫痪,于是快速精准地确定雷电位置尤为重要。雷电爆发伴随着丰富的甚低频(VLF)信号的产生,定位雷电的位置可看成定位VLF信号源的位置。在两条不同的VLF信号传播大圆路径中,由于VLF信号受电离层的各向异性、地面电导率不同的影响,即使传
电阻抗层析成像(Electrical Impedance Tomography,EIT)是新兴的重构被测区域内电导率分布的可视化技术,因具有非辐射、非侵入、实时性等优点被广泛的应用于工业过程检测和生物医学成像领域。但是,电阻抗层析成像图像重构过程是一个高度的非线性病态逆问题,导致重构图像空间分辨率差,目标边缘恢复不清晰,严重阻碍了电阻抗层析成像技术的推广应用。面对日益复杂的应用环境和高质量的重构图
在当前互联网快速发展的大背景下,越来越多的数字图像被应用到各行各业,如何提高传输和储存数字图像的安全性受到研究者的关注。混沌系统具有遍历性、确定性和对初始条件和控制参数的敏感性等特点,而这些性质非常符合图像加密机制的要求,因此近些年出现了越来越多的混沌图像加密机制。由于图像数据具有冗余度高、相邻像素相关性强等特点,混沌图像加密算法在效率和安全性等方面比传统的加密算法具有更强的优势。然而,其中一些基
<正>鉴定与鉴藏是中国古代书画研究的主要内容,是中国美术史学的一个分支学科,具有独特的学术传统。1949年以来,老一辈专家学者在现代学术体系下,在古书画鉴定和研究方面取得了丰富的学术成果,为书画鉴定与鉴藏研究打下了坚实的学术根基。近年来,古书画鉴藏史研究日益受到学术界关注,相关研究成果不断丰富。2021年10月17日至20日,由故宫博物院主办,中央美术学院、中国美术学院、浙江大学联合主办的"第一届