组特征选择算法及其应用研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:guw2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物信息学中,基于基因表达微阵列数据的分类模型以及特征选择算法已成为机器学习和数据挖掘领域的研究热点。由于基因存在共调控现象,即存在一系列共同发挥作用的基因,从而导致微阵列数据中存在特征组。目前,领域专家希望能够发现这些相关基因组成的特征组以进行深入研究,因此本文重点研究组特征选择算法,在降低特征个数提高分类精度的同时,发现数据中存在的关键特征组,为领域专家提供更多的底层数据关系信息。根据特征组发现方式的不同,组特征选择算法一般分为两类:显式组特征选择和隐式组特征选择。显式组特征选择先根据一定准则将特征划分为若干个特征组,且组内特征彼此高度相关,然后在特征组的层次上进行选择。隐式组特征选择则不直接找出特征组,而是根据其特征选择的结果识别特征组。围绕上述两类组特征选择算法,本文的主要工作如下:1.提出了一个基于特征聚类的显式组特征选择算法FC-gRFE (Feature Clustering based Group SVM-RFE)。该算法首先对样本进行特征聚类,将每个聚类看作一个特征组,然后在特征组的层次上利用SVMRFE进行特征选择,得到最后的组特征选择结果。考虑到样本个数变化对特征聚类的影响,提出了SW-gRFE算法(Sample Weighting FC-gRFE),该算法首先根据样本重要性计算样本权重,然后在加权样本集上进行FC-gRFE组特征选择。微阵列数据集上的实验结果表明,该算法可以在不牺牲分类精度的前提下,有效发现数据中存在的特征组。2.提出了一个基于改进权重的隐式组特征选择算法CW-groupS (Coefficient Weight group feature Selection)。该算法首先利用稀疏模型Elastic Net对每一个特征在原始训练样本的特征集上进行稀疏编码,然后根据这些判别性比原始特征更强的编码来计算特征之间的相关性,最后求解基于特征相关性加权的Fused Lasso模型,得到具有组效应的稀疏特征系数,即为组特征选择结果。本文利用FISTA算法实现了CW-groupS算法的快速求解。仿真数据集上以及微阵列数据集上的实验结果验证了该算法的有效性。3.提出了一个集成的显式组特征选择算法EN-gRFE (ENsemble FC-gRFE)。该算法将在多个采样数据集上的FC-gRFE组特征选择结果归并为一个有重复特征的特征集,找出其中重复次数最多的若干个特征并进行聚类,从而得到最后的组特征选择结果。微阵列数据集上的实验结果验证了该算法的有效性。
其他文献
确定主机的地理位置是一项重要的网络应用服务,目前主要是通过查询IP到实际地理位置的映射数据库来获得主机的地理位置,IP地址库不易构建与维护,由于更新不及时、覆盖度低、粒度
摘要:有效均衡网络负载,避免能量空洞问题是无线传感器网络研究中一个基础且关键的问题,它直接影响着整个网络的生存寿命、通信性能和能量使用效率。结合无线传感器网络的通信
由于微电子微处理器微计算机系统先进的计算机技术和无线通信等技术的进步,促进了无线传感器网络的产生和迅速发展无线传感器网络能够将分布在监测区域内的具有信息采集功能,并
图像拼接是图像处理与计算机视觉领域一个日益流行的研究区域,其目的是将具有重叠部分的同一场景的两幅或者多幅图像拼接成一幅具有较高分辨率的全景图像。图像拼接技术能够解
随着无线通信技术的不断发展,作为无线通信载体的频谱资源短缺的问题也越来越严重。经过研究发现,造成频谱短缺的根本原因是传统的固定频谱分配方式造成的,所以动态频谱分配
即时通讯软件(如短信、微信、QQ、微博等)会产生海量的交互信息数据,它们与以往的数据有很大的不同,其以会话形式存在,主要特点在于数据中包含两个或以上的用户的消息。这些
近年来,金属矿山安全生产管理水平逐渐提升,但各类安全事故时有发生。在井下金属矿山突发灾难事故时,由于救援措施的迟滞性、矿工对于井下作业环境不熟悉等因素,从而给矿山带来了
近年来,随着无线通信技术和电子器件技术的发展,无线传感器网络(Wireless SensorNetworks,简称WSN)成为人类日益关注的新兴技术。无线传感器网络不需要固定设施,由大规模的传感器
随着网络移动终端用户数量急剧增长,如何保证网络终端用户在移动环境下的安全性成为研究的热点问题。HIP是一种综合解决主机移动性和安全性的有效方案,但其移动性管理实现机制
随着信息成为企业生存发展的关键因素,从海量数据中提取和分析信息进而支持企业决策交得越来越重要。数据仓库作为分析海量数据的重要工具而备受关注。   今天,传统数据库管