论文部分内容阅读
由于科技的高速发展,生物数据正处于爆炸式增长的时代。从复杂、高维的生物数据中挖掘出有价值的信息对于研究问题的本质具有重要意义。特征选择是处理高维生物数据的一种有效手段,它可以从原始特征集合中去除大量无关的、冗余的特征与噪音,筛选与生物问题高度相关的特征子集,被广泛应用于生物标志物的发现与疾病分类等方面。生命活动是复杂的,分子间通过相互作用共同完成生物功能。因此在寻找生物标志物的过程中,不仅需要考虑分子自身的分类性能,同时也要考虑分子间的关联性。本文从分子层面与网络层面两个角度衡量特征的区分能力,提出了FS-ODND算法。FS-ODND算法利用特征在不同类别上有效范围的重叠程度计算特征权重,从分子层面度量特征的区分能力。利用比值变量的非重叠度构建网络,用网络中节点的度计算特征的权重,从网络层面度量特征的重要性。在八个公共生物数据集上将FS-ODND算法与Degree、ERGS、Relief-F和SVM-RFE四种方法比较,实验结果表明FS-ODND算法在分类准确率、选择特征数以及稳定性均优于其他方法。生物系统十分复杂,不同种类的生物样本的差异可能体现在某些单变量上的分布差异,也可能体现在变量间关系的变化。本文综合评价单变量与对变量,提出FS-SVPV算法。该算法基于信息增益构建单变量分类器,采用M-k-TSP的评价准则评估单变量和对变量的水平关系所包含的差异信息,选择区分能力最强的单变量、对变量构建分类模型。在十一个公共生物数据集上的实验表明FS-SVPV算法所构建的分类器在大多数情况下优于M-k-TSP算法与SVFS算法,说明综合评价单变量和对变量,可以更有效地挖掘富含信息的变量。本文提出的两种特征选择方法均是基于融合的方式,FS-ODND算法是从分子层面与网络层面两个角度衡量单变量的重要性,FS-SVPV算法同时考虑了单变量与对变量的区分能力,实验结果表明了基于融合方式的特征选择方法的有效性。