论文部分内容阅读
高通量技术的发展产生了大量与基因、蛋白质和代谢相关的生物组学数据。从生物组学数据中发现和提炼与疾病相关的信息一直是生物信息学领域的热点问题。通过模式识别中的特征选择和分类技术,对高维生物组学数据中蕴藏的重要信息进行提取、筛选、识别和分类是分析生物组学数据的常用方法。生物组学数据具有的高维小样本、多类间样本分布不平衡等多种特征和样本统计分布特性,对特征选择算法在分类泛化性和稳定性等方面的表现提出巨大挑战,为了精确和稳定地提取与分类目标高度相关的特征子集,需要我们深入地研究和设计针对生物组学数据特征选择问题的新方法。本文针对生物组学数据的不同特性,提出了一系列集成特征选择算法,主要工作概括如下:1.在研究多种特征相关性度量的基础上,提出一种基于多种相关性度量的集成最大相关最小冗余(maximum Relevance and Minimum Redundancy,mRMR)特征选择算法。我们分析了最大信息系数、皮尔逊相关系数和互信息量在特征相关性度量方面的差异,并对前向搜索算法进行改进,增加可以设置所选择特征个数和搜索范围的机制,基于3种特征相关性度量和改进的搜索算法获得三组最优特征子集并进行集成分类学习。对不同类型的多组生物组学数据集的分类对比实验结果表明,集成m RMR特征选择算法能够针对各种类型的生物组学数据有效地选择最优特征子集,并有助于分类算法获得良好的识别性能。2.针对生物组学数据普遍存在多个最优或次优特征子集的情况,提出基于小生境二进制粒子群优化的集成特征选择算法。基于单一特征子集构建的分类模型在小样本生物组学数据上容易产生过拟合而影响分类泛化性能。为了尽量避免该问题,本文通过小生境二进制粒子群优化算法作为特征子集搜索算法,获得多个差异度最大且分类性能最优的特征子集并进行集成分类学习,由投票技术所集成的强分类器体现出优良的稳定性和泛化性。3.为了克服生物组学数据类间样本不平衡特性对特征选择和分类过程的影响,本文提出一种迭代式集成特征选择算法。该算法利用2种样本平衡预处理方法和3种过滤式生物组学数据特征选择算法,通过样本平衡和特征选择不断迭代的方式,使特征选择在一个趋于平衡的样本分布中迭代完成。对多组具有类间样本不平衡特性的生物组学数据进行分类实验,结果表明,由于克服了样本不平衡特性对特征选择的影响,所设计的迭代集成特征选择算法可以进一步提高分类性能。4.针对迭代集成特征选择所具有的局限性,本文提出一种基于粒子群优化的集成特征和模型选择算法。该算法将候选样本平衡模型、特征选择模型和分类模型的选择以及相应模型的超参数编码到粒子中。通过粒子种群的优化,自适应搜索具有最优分类性能的模型组合以及对应模型的超参数设置。实验结果表明,基于粒子群优化的集成特征和模型选择算法能够根据不同生物组学数据的样本和特征分布特性,自适应选择样本平衡模型和特征选择模型的最优组合,避免人为选择和设置模型所引入的主观偏差。本文所提出的一系列集成特征选择算法有助于解决生物组学数据复杂的样本和特征分布特性对特征选择和分类所造成的困难,所使用的集成特征选择思路可为后续相关生物组学数据分析提供借鉴。