论文部分内容阅读
不断发展的高通量技术,使得科研人员能够非常容易的获得现存物种的全基因组核酸序列或蛋白质组的氨基酸序列。然而与基因表达数据爆发式增长所表现出的“欣欣向荣”的景象形成鲜明对比的是我们尚未形成针对如此体量数据进行挖掘的技术手段。为了应对这种挑战,科研人员提出了很多算法如SVM-RFE,遗传算法用于挖掘特异性表达基因,并针对于小数据集取得了很好的效果,然而由于IO以及内存的瓶颈使得这些算法无法应用到处理海量数据迭代计算场景。为此本文提出了一种基于遗传算法的面向基因特异性表达的迭代Spark计算模型,旨在利用Spark提供的基于内存的良好的分布式计算能力以及遗传算法对于最优解的全局搜索以及优化能力,解决传统数据挖掘算法的IO瓶颈,提高算法性能。本文提出的基于Spark的迭代模型可以划分为三个部分:基因特异性表达特征发现过程,特异性表达特征选择过程,特异性表达特征论证过程。特异性表达特征发现过程主要是针对于原始基因表达数据格式不规范、量纲不统一、缺失值等问题,基于Spark设计了一种具有普适性的数据预处理框架;特异性表达特征选择过程针对于现有研究方法迭代效率地的问题,通过GA算法不断的反复迭代在全局范围内选取最优解,结合Spark基于内存的计算,实现了分布式环境下探索特异性表达基因的快速迭代模型,模型的核心层将封装了GA的进化操作,实现对用户调用的透明,在判断个体适应度的过程中引入了特征长度指标,并在预置了几种分类器的基础上,模块化的将分类器定义开放给用户,可以使用户根据自己实际的应用场景进行定制化,实验证明,这种模型设计极大地提高了GA的收敛速度,同时保证了特征选取的精度,特异性表达特征论证过程主要从生物学维度上检验模型选取的基因的生物特性,验证揭示其在生物活动中起到的作用。综上所述,本文提出的基于遗传算法的面向基因特异性表达的迭代Spark计算模型在分布式环境下处理高维度的基因表达数据时获得了良好的表现,在保证特征选取的准确度的同时,在与基于MapReduce思想实现的框架的性能对比中,针对于Leukemia,Breast Cancer以及Rice数据集分别取得了1.793,1.586,1.369的加速比。