基于改进NSGA-Ⅱ的多目标特征选择方法研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:tjtcqp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类任务是机器学习中一项重要的分支,分类算法利用样本中的特征信息将实例进行类别的划分。但是,由于特征数量的急剧增长,“维度灾难”问题严重影响了分类算法的性能。特征选择技术通过对数据集中不相关或冗余的特征进行剔除,能够很好地解决“维度灾难”问题。特征选择可以被视为组合优化问题,即从特征全集中挑选出合适的特征组合形成特征子集。遗传算法作为进化算法中最具代表性的经典算法之一,全局搜索能力突出,特别是针对多目标优化问题提出的第二代非支配排序遗传算法(NSGA-Ⅱ)已被广泛用于解决特征选择问题。然而,在对高维度的数据集合进行特征选择任务时,NSGA-Ⅱ算法往往存在收敛过早,止于局部最优解等问题。且原始NSGA-Ⅱ及其改进的方法也仅仅专注于种群中个体信息的交换,忽略了特征之间、特征与实例类别之间的信息,来进行特征的选取,导致算法的搜索效果欠佳。针对以上问题,本文提出了两种改进的NSGA-Ⅱ算法以提升NSGA-Ⅱ在解决特征选择问题时的表现。本文的主要贡献和研究内容为:(1)提出基于自适应NSGA-Ⅱ的特征选择算法(Sa MOGA)。交叉算子作为遗传算法中搜索候选解的重要技术,对最终的优化结果具有很大影响。然而,多数交叉算子都是依赖于特定问题的,且具有不同的搜索能力。因此,针对某个特定的特征选择问题来选择合适且有效的交叉算子是一个艰难且耗时的过程。为了克服这一挑战,本文提出了一种自适应交叉算子选择机制,将五个具有不同搜索特性的交叉算子集成于NSGA-Ⅱ中。该机制能够在种群更新迭代过程中记录每个交叉算子的使用信息,并利用这些历史信息来选择当前进化阶段最合适的交叉算子来产生候选解,以提升算法的搜索效率。实验表明,Sa MOGA在多数数据集上效果显著,具有较好的鲁棒性。(2)提出基于Relief F和NSGA-Ⅱ的混合式特征选择算法(MOFS-RFGA)。结合过滤式和封装式方法各自的优点,将两类算法进行混合以提升解决特征选择问题的能力。首先,利用Relief F算法根据对样本类别的重要程度,为特征进行评分。接着,利用特征评分信息初始化种群。同时,本文还设计了一种新的交叉和变异算子,根据特征评分信息来指导交叉和变异过程,提高算法在特征空间搜索的目的性和方向性,提升收敛性能。实验结果显示,本文提出的混合式特征选择方法能够充分发挥过滤式和封装式方法的优势,在大量数据集上击败了性能优秀的对比算法,削减大量特征的同时还能保证良好分类性能。
其他文献
一直以来,恶劣雷电天气不仅对人们的日常生产经济生活、产业的正常运营产生影响,甚至对国防、军事都造成了严重的威胁,每年都会造成大量的公民生命财产损失和国家财政经济损失,因此雷电天气成为了公共安全和一系列对天气敏感产业的重大关注点。如何降低雷电天气给群众和产业造成的危害和影响是目前形势下所需要着重关注的,目前降低雷电天气对社会各界危害的途径有很多,比较主流的方式是对未来一段时间内雷暴以及雷电活动的情况
学位
随着大数据时代的来临,海量数据信息需要被高效解析。视觉作为人类获取外界信息的主要方式,蕴含着丰富的信息。为了快速自动分析视觉信息,计算机视觉发挥着重要作用。视觉目标跟踪作为计算机视觉领域的热门问题,旨在跟踪指定目标,获取其在视频每帧中的位置信息,已被广泛地应用在智慧城市、交通管制、国防军事等关系国计民生的重要领域。当前,探索高速精准的跟踪模型已成为该领域热点话题。今来,联合时空正则化与深度特征的相
学位
群签名技术是签名技术在群组环境中的扩展,该技术可以在实现身份认证的同时确保用户的隐私保护,具备良好的实用性。动态群签名技术具备群组成员动态更新、匿名性、不可陷害性和可追踪性等特点,适用于车联网、电子钱包、电子投票和云数据审计等环境。然而,一方面,现存的动态群签名方案都有一个隐含的假设,即所有群组成员的身份是公开的。这使得现存方案可能泄露用户的隐私信息,无法提供完备的隐私保护。另一方面,现存的支持时
学位
高光谱遥感将被测地物的空间信息与极其丰富的光谱信息结合为一体,极大地拓宽了人类的视野,增强了探测物质属性的能力。在多种实际应用中,信息提取与处理的精度很大程度依赖于所采集的高光谱图像质量。然而,在信号采样和数字成像的过程中,高光谱图像会不可避免地受多种类型混合噪声污染而退化。这种退化会极大降低后续应用的精度与效率。近年,低秩表示方法在图像恢复问题上获得了高度关注。但是,由于高光谱图像数据维度高、冗
学位
目的 分析个性化健康教育应用于老年高血压患者中的效果。方法 选取2019年7月至2021年7月到我院诊治的40例老年高血压患者,通过计算机抽签方法设为观察组和对照组,每组各20例,其中对照组患者进行标准化护理方案,观察组采用标准化护理联合个性化健康教育护理方案,对比两组患者干预后的血压水平表现情况和治疗效果。结果 通过不同的干预措施后,观察组患者的血压水平低于对照组(P <0.05);观察组治疗总
期刊
医疗保健5.0时代,智能设备被广泛使用。实现心律失常的自动诊断可以促进医疗保健5.0的发展并提高人们的生活质量。越来越多的智能设备被引入到医疗保健领域,这些智能设备可以从传感数据(例如,心电图(Electro Cardio Gram,ECG))中提取特征,以帮助监测和诊断疾病。然而,心跳的智能分类并不容易实施。不同心跳之间的差别较小以及罕见类型的心跳数据的缺乏使得心跳的自动分类十分困难。为实现高准
学位
随着云计算不断发展成熟,越来越多的用户将本地私有数据外包给云服务器计算。与此同时,云端数据被恶意篡改,用户隐私泄露等云计算安全问题也日益严重。隐私集合交集协议在实现云外包集合交集计算的同时能保护用户隐私,一定程度上为促进云安全计算提供了可靠保障。然而,现有的隐私集合交集协议致力于防止用户隐私泄露,忽略了云计算结果的可验证性和抵抗共谋攻击等问题。一方面,云服务器可能为了节约计算资源或谋取经济利益等目
学位
信息隐藏是一种将秘密信息以不可见的形式隐藏到多媒体载体中的技术。通过使用这项技术,发送者和接受者可以在通信的同时不引起第三方怀疑。传统的信息隐藏方法是根据秘密信息直接修改多媒体载体,对载体的修改必然会导致载体出现不同程度的失真。随着隐写分析技术的快速发展,隐写分析器能够捕获到越来越细微的载体失真,这直接威胁到了传统信息隐藏方法的安全性。为了从根本上保证信息隐藏技术的安全性,研究人员提出了构造式信息
学位
传统机器学习或模式识别问题通常假设:1)训练数据和测试数据服从相同分布;2)训练数据充足且有标注。这样的假设过于理想且在实际问题中很难成立,为了克服数据分布不同且无标记或者少标记的问题,域适应作为新的机器学习范式被提出。截至目前,已有大量域适应方法被提出,但域适应的场景丰富多变且域间域内关系错综复杂,现有方法并不能很好地根据域适应的场景设置挖掘其特有的先验知识、领域关系等。为此,本文针对无监督域适
学位
隐写术和隐写分析是当前信息隐藏领域中重要研究热点。隐写术的滥用造成不少的安全隐患,如:商业犯罪分子利用隐写技术完成隐蔽通信来实现信息盗取。图像隐写术是一种通过修改数字图像的复杂区域来嵌入秘密信息以达到隐蔽通信目的的技术,但由于隐写术的特殊性导致其可能被用于非法领域,因此研究隐写分析技术对维护信息安全具备重要的研究意义和实用价值。隐写分析技术按照其技术基础分为基于人工特征的隐写分析方法和深度隐写分析
学位