论文部分内容阅读
作为一种模拟物种进化和自然选择的进化计算方法,遗传算法(Genetic Algorithm,GA)在优化计算、数据挖掘、机器学习等领域内有着广泛的应用前景.该文从生物信息学中海量基因数据处理的需要出发,研究了基于遗传算法的优化计算模型,并将其应用于生物信息学复杂数据处理.该文所取得的主要研究成果如下:(一)一种基于遗传算法的进化计算模型.论文提出了一种基于遗传算法的进化计算模型(Evolutionary Computing Model,ECM).在ECM中,种群中的每一个成员都以不同的程度影响种群的进化,具体表现在对于子代个体的形成和发展的影响上.ECM定义了个体对进化的影响因子,并以个体的影响因子为参数定义了个体的形成算子和发展算子.ECM通过群体的进化实现对复杂优化问题的解.(二)一种内嵌蚁群的基因联接学习遗传计算模型.论文提出了一种内嵌蚁群的基因联接学习遗传计算模型ANTGA.在ANTGA中,遗传算法的种群对应蚁群,遗传算法的每一个染色体同时又是一只蚂蚁,遗传算法的染色体编码对应蚂蚁的一条路径.在ANTGA中,基因联接强度的计算以及联接学习均采用蚁群算法实现,该文的研究表明,ANTGA继承了Holland关于紧密联接基因和松散联接基因的概念以及通过进化得出最优编码次序的思想,可以较好地求解有界难度问题.ANTGA中的基因连接学习是并行进行的,并且它的遗传操作能以较大的概率在基因联接强度较弱的位点上进行,避免了积木块过多地被遗传操作所破坏,从而提高了遗传算法的效率.与基因联接学习遗传算法相比,ANTGA的个体编码长度不会随着等位基因数量的增加而成倍的增加,具有较低的染色体编码复杂度,以及较低的联接学习复杂度和计算复杂度.(三)基于ECM的多序列比对算法.论文提出了基于遗传计算模型ECM的多序列比对算法,采用了基于空位串位置和长度的编码方案,使得染色体编码矩阵具有相同的大小,便于子代个体的形成和发展操作,将交叉位点选择的计算复杂度由O(N)降低到O(1).论文提出了完全比对块的概念和完全比对块加权的多序列比对目标函数,该目标函数有利于引导遗传算法发现更多的完全比对块.(四)基于ANTGA的多发性骨髓瘤基因表达谱分析.论文提出了一种基于正确分类样本数和错误分类样本数的分类准确度评价函数,将基于基因表达谱的多发性骨髓瘤特征基因选择问题和分类规则提取问题转化为优化计算问题,并应用内嵌蚁群的基因联接学习遗传计算模型ANTGA从基因表达数据中提取多发性骨髓瘤的特征基因和分类规则.论文以Arkansas癌症研究中心的多发性骨髓瘤基因表达数据集作为研究对象,应用ANTGA从105个基因表达数据样本的7129个基因中鉴别出了3个特征基因,以及基于这3个特征基因的3条多发性骨髓瘤分类规则.