稳定的特征选择算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:jinr0op4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高维数据正越来越多地充斥于数据挖掘领域,解决高维数据学习问题的传统方法是应用特征选择方法,尽可能地选择一个最小的特征子集(特征模型)来精确地描述学习数据。然而现存的多数特征选择算法存在一个共同的问题:即如果训练集发生轻微的变化,则经过特征选择产生的特征子集不稳定(或鲁棒)。当特征选择应用于知识发现时,算法的稳定性是一个不容忽视的问题。因此,本文的核心是稳定的特征选择算法的研究。首先在有监督的特征选择领域,为了提高算法的稳定性,基于L2正则化项和逻辑损失函数,本文提出了一种新的集成特征选择方法,即特征加权算法,并采用两种线性集成的方式WEn和REn。此外,本文还给出了对所提集成特征加权算法的旋转不变性和统一稳定性的理论分析。在真实数据集的实验结果表明,所提算法具有良好的稳定性和分类性能,并且在稳定性与分类准确率折中方面,本文所提的算法(REn和WEn)中至少有一个算法有高于或者相似于其他算法的性能。在无监督特征选择领域,本文提出了一种过滤冗余特征的算法框架,利用组特征选择的思想来去除冗余特征,同时提高算法的稳定性。在组构造阶段,为了弥补单一聚类算法的不足,引入聚类集成的思想,先利用k-means方法对数据集进行多次聚类得到一个聚类集体。在集成阶段,采用基于互联合矩阵的方法,将点对在同一簇中出现的比例作为它们之间的相似性度量,接下来对聚类集体进行层次聚类,得到最优的集成结果。实验结果表明这种算法框架能有效地消除冗余特征,保证算法稳定性的同时还能获得较好的分类性能。
其他文献
与传统的被动防御安全技术如防火墙、IDS相比,蜜罐技术采用了主动防御的策略,通过主动诱捕的方式监控攻击行为,更有效的保护网络安全。现有的蜜罐技术还远未成熟,尤其是高交互度
无线Mesh网是在无线局域网和Ad hoc网络的基础上发展起来的一种新型的无线网络技术,它融合了两者的优势,具有覆盖范围更广、带宽更高、更易扩展等特性。无线Mesh网是一种极有前
随着WEB服务的快速发展,其安全性问题日益受到人们的关注。为此,针对WEB服务所面临的新的安全性挑战和威胁,业界人士制定了很多保护WEB服务的相关规范。其中WS-Security规范
航片扫描仪是一种高精度的图像扫描输入设备,主要是为全数字摄影测量、遥感、地理信息系统( GIS )等需要高精度航片数字化影像的领域而设计的,是测绘部门必备的图像扫描输入
基于ITIL标准的服务管理解决方案得到了广泛的认可,已经成为业界事实上的工业标准。IT基础设施管理是ITIL管理框架中的基础部分,它侧重于从技术角度对基础设施进行管理,其目标是
油水井前磁曲线的矢量化将有利于前磁数据的存储、管理、分析、共享和网络传输。本文在大庆采油二厂的资助下开展了前磁曲线矢量化的研究工作,主要是在分析前磁图纸特点的基
随着Internet的飞速发展,Java技术也得到了越来越广泛的应用。无论我们是采用J2SE、J2EE还是J2ME,GUI都是不能回避的问题。现在的应用软件对界面的要求越来越高:界面友好、功能
管道作为一种特殊的承压设备,广泛运用于石油、化工、冶金、电力等行业及城市燃气和供热系统中。在日常生产中,由于对管道的管理重视不足,由管道引起的生产事故频繁发生。而且目
虚拟手术是一门综合性的学科,涉及到医学,计算机图形学,生物力学,机械动力学,材料科学等诸多领域。虚拟手术的主要目的是在原始医学图象的基础上,利用可视化技术在计算机内构
随着Web服务技术的发展,面向服务架构(SOA)已经从一个难以实现的设计理念逐渐变为业务解决方案中重要的设计方法。然而,只有能够将现有服务进行灵活组合才能真正发挥SOA的优