论文部分内容阅读
作为系统生物学的重要组成部分,代谢组学在生命活动的研究之中越发受到广泛的关注。代谢组学以生命活动的最终产物为研究对象,能够直观的反映机体对于外界环境因素(如感染、用药、手术)以及自身因素(疾病、老化)所造成的代谢活动的变化,可以用于机体生命活动异常的诊断与治疗。由于生物数据通常都具有很高的维度、包含大量的噪音特征,从高维数据中提取出能够反映问题本质的关键信息成为代谢组学研究的瓶颈。数据挖掘技术通过对数据进行建模,能够把握数据自身的特征,有助于对数据的解释与分析。特征选择算法能够发现高维数据中最能够体现样本分布的特征集合,为了能够对代谢组学数据进行合理的解释并从数据中找出关键的代谢成分,特征选择是十分必要的。分布估计算法(Estimation of Distribution Algorithms, EDAs)是一类以概率模型为基础的进化算法,由于其突出的问题优化能力与模型的解释能力,近年来这类算法也受到了广泛的关注。本文通过对分布估计算法(Estimation of Distribution Algorithms, EDAs)在特征选择问题中的研究与应用,给出了一种约束了算法中候选解容量的特征选择算法L-EDA。在L-EDA算法中,候选解的容量被约束为一个比较小的数目,突显出对于解决所处理问题表现优异的候选解。同时基于算法每一轮筛选出的优秀候选解的集合,本文给出了一种以全局基准来衡量各个因素优劣的概率向量更新策略,使得模型的更新更为准确,能够发现与问题最为相关的因素。本文的另一主要内容是给出了一种基于后向特征删除策略的两阶段特征选择方法F-SVM,方法先通过将方差分析(Analysis of Variance, ANOVA)中特征对应的F值与支持向量机(Support Vector Machine, SVM)模型中特征的权重相结合的方式,过滤掉数据中的噪音特征;在此基础之上,方法利用支持向量机进一步迭代的对剩下的特征进行进一步的建模与评价,选出数据中最具区分能力的特征集合。在对于卵巢癌复发非复发数据的处理过程中,相对于传统的分布估计算法以及遗传算法,L-EDA算法有效的排除了数据中手术与用药治疗等因素的干扰,找出了5种能够体现卵巢癌病征的代谢成分,可以用于辅助临床的诊断与治疗。在利用对肝病代谢组学数据的处理之中,F-SVM方法发现了数据中22种不同类别之间最具差异的特征,能够为肝病的临床诊断提供依据。在实验中,本文利用K折特征选择模型对F-SVM从高维数据中发现关键特征与进行样本区分的能力进行了验证。