论文部分内容阅读
随着人类基因组计划(Human Genome Project)的基本完成,生命科学的研究进入了后基因组时代(Post-Genome Era),在后基因组时代,生命科学研究的重点从单个基因的研究上升到对整个基因组功能和动态变化规律的研究,从而产生了对海量生物信息进行处理的需求;而计算机技术的革命性发展,形成了处理海量生物信息的能力。于是,生物信息学便在综合计算生物学的研究和生物学信息的计算机处理的基础上迅速而成功地发展起来。生物信息学是计算机和网络大发展、各种生物数据库迅猛增长形势下如何组织数据,并从数据中提取生物学新知识的学问。基因芯片或微阵列技术(Gene Chip or Microarrays)是最近分子生物学实验技术的一个突破,利用该技术可以同时对成千上万个基因的表达数据进行平行分析,产生了海量的有用数据,分析与整理这些数据成为利用这一技术的一个主要瓶颈问题。本文主要研究基因分类及基因表达数据分析方法,主要工作和创新点概括如下:(1)介绍了基因分类的发展概况、微阵列技术以及常用的分类算法,并通过实验进行性能评价,为本文后续章节的研究提供理论和实验基础。(2)基因选择是基因芯片数据分析中的一个重要问题,要进行基因选择的主要原因在于基因数远远大于实验样本数。为此本文把蚁群优化算法(Ant ColonyOptimization Algorithm,ACO Algorithm)引入基因选择领域,并用基因与类别的相关性分析所得值初始化最优化问题,缩短了找寻最优解的时间;以基因子集整体的样本辨别能力与它所含基因间的平均距离的线性表达作为目标函数,有利于在找到关键基因的同时消除冗余;同时,不同于一般的包装基因选择算法,在计算目标函数的时候不需要对每个基因子集进行分类准确度的计算,从而有效地降低了计算复杂度,提高了方法的灵活性和适应性。(3)独立分量分析(Independent Component Analysis,简称ICA)是应用于基因分类的一种统计方法。但独立分量分析中的估计分离矩阵算法主要采用随机梯度算法和自然梯度算法,这些基于梯度下降的寻优算法很容易陷入局部极值,所得结果不精确。本文提出了一种基于遗传算法的基因分类算法,其基本思想是利用遗传算法代替独立分量分析中传统的估计分离矩阵算法,对基因表达数据进行分类,克服了结果不精确的问题。实验结果表明,该分类方法获得了更好的分类效果。(4)本文从分类算法和特征基因选择两个方面研究基因表达数据的分类,将传统的SVM算法和KNN算法两者结合成为一种新的应用于基因表达数据分类的算法,并针对基因表达数据分类数据集中“样本少,维数高”的特点,提出了一种改进的基于相关性的递归特征消除算法(简称为C-RFE),消除了数据冗余。实验结果表明,新方法可有效提高分类准确率和特征选取的效率。(5)针对基因表达数据的特征和单个分类器在进行基因分类时适用范围有限、分类准确度不高等问题,提出了一种新的基于神经网络的融合规则的多分类器组合模型的基因分类算法,克服了单个分类在进行基因分类时所呈现的不足,实验表明基于多分类器组合模型的基因分类算法能有效提高分类准确度,并能扩大分类器的适用范围。(6)聚类分析已经成为基因表达数据分析中的一种非常重要的分析方法,但怎样结合其他高层次的生物学知识对聚类结果进行进一步的分析和解释依然是功能基因组研究中一个亟待解决的问题。为此,本文提出一种简单的算法,结合GO和KEGG调控代谢路径注释信息对聚类结果进行分析,获得具有显著功能注释关联的共表达基因集合。然后在此基础上开发了相应的自动分析软件SigClust,同时用一组基因表达数据对该软件的预测能力进行了验证。