论文部分内容阅读
在生物信息学中,基于基因表达微阵列数据的分类模型以及特征选择算法已成为机器学习和数据挖掘领域的研究热点。由于基因存在共调控现象,即存在一系列共同发挥作用的基因,从而导致微阵列数据中存在特征组。目前,领域专家希望能够发现这些相关基因组成的特征组以进行深入研究,因此本文重点研究组特征选择算法,在降低特征个数提高分类精度的同时,发现数据中存在的关键特征组,为领域专家提供更多的底层数据关系信息。根据特征组发现方式的不同,组特征选择算法一般分为两类:显式组特征选择和隐式组特征选择。显式组特征选择先根据一定准则将特征划分为若干个特征组,且组内特征彼此高度相关,然后在特征组的层次上进行选择。隐式组特征选择则不直接找出特征组,而是根据其特征选择的结果识别特征组。围绕上述两类组特征选择算法,本文的主要工作如下:1.提出了一个基于特征聚类的显式组特征选择算法FC-gRFE (Feature Clustering based Group SVM-RFE)。该算法首先对样本进行特征聚类,将每个聚类看作一个特征组,然后在特征组的层次上利用SVMRFE进行特征选择,得到最后的组特征选择结果。考虑到样本个数变化对特征聚类的影响,提出了SW-gRFE算法(Sample Weighting FC-gRFE),该算法首先根据样本重要性计算样本权重,然后在加权样本集上进行FC-gRFE组特征选择。微阵列数据集上的实验结果表明,该算法可以在不牺牲分类精度的前提下,有效发现数据中存在的特征组。2.提出了一个基于改进权重的隐式组特征选择算法CW-groupS (Coefficient Weight group feature Selection)。该算法首先利用稀疏模型Elastic Net对每一个特征在原始训练样本的特征集上进行稀疏编码,然后根据这些判别性比原始特征更强的编码来计算特征之间的相关性,最后求解基于特征相关性加权的Fused Lasso模型,得到具有组效应的稀疏特征系数,即为组特征选择结果。本文利用FISTA算法实现了CW-groupS算法的快速求解。仿真数据集上以及微阵列数据集上的实验结果验证了该算法的有效性。3.提出了一个集成的显式组特征选择算法EN-gRFE (ENsemble FC-gRFE)。该算法将在多个采样数据集上的FC-gRFE组特征选择结果归并为一个有重复特征的特征集,找出其中重复次数最多的若干个特征并进行聚类,从而得到最后的组特征选择结果。微阵列数据集上的实验结果验证了该算法的有效性。