面向基因特异性表达的迭代Spark计算模型研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:chengzi1022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不断发展的高通量技术,使得科研人员能够非常容易的获得现存物种的全基因组核酸序列或蛋白质组的氨基酸序列。然而与基因表达数据爆发式增长所表现出的“欣欣向荣”的景象形成鲜明对比的是我们尚未形成针对如此体量数据进行挖掘的技术手段。为了应对这种挑战,科研人员提出了很多算法如SVM-RFE,遗传算法用于挖掘特异性表达基因,并针对于小数据集取得了很好的效果,然而由于IO以及内存的瓶颈使得这些算法无法应用到处理海量数据迭代计算场景。为此本文提出了一种基于遗传算法的面向基因特异性表达的迭代Spark计算模型,旨在利用Spark提供的基于内存的良好的分布式计算能力以及遗传算法对于最优解的全局搜索以及优化能力,解决传统数据挖掘算法的IO瓶颈,提高算法性能。本文提出的基于Spark的迭代模型可以划分为三个部分:基因特异性表达特征发现过程,特异性表达特征选择过程,特异性表达特征论证过程。特异性表达特征发现过程主要是针对于原始基因表达数据格式不规范、量纲不统一、缺失值等问题,基于Spark设计了一种具有普适性的数据预处理框架;特异性表达特征选择过程针对于现有研究方法迭代效率地的问题,通过GA算法不断的反复迭代在全局范围内选取最优解,结合Spark基于内存的计算,实现了分布式环境下探索特异性表达基因的快速迭代模型,模型的核心层将封装了GA的进化操作,实现对用户调用的透明,在判断个体适应度的过程中引入了特征长度指标,并在预置了几种分类器的基础上,模块化的将分类器定义开放给用户,可以使用户根据自己实际的应用场景进行定制化,实验证明,这种模型设计极大地提高了GA的收敛速度,同时保证了特征选取的精度,特异性表达特征论证过程主要从生物学维度上检验模型选取的基因的生物特性,验证揭示其在生物活动中起到的作用。综上所述,本文提出的基于遗传算法的面向基因特异性表达的迭代Spark计算模型在分布式环境下处理高维度的基因表达数据时获得了良好的表现,在保证特征选取的准确度的同时,在与基于MapReduce思想实现的框架的性能对比中,针对于Leukemia,Breast Cancer以及Rice数据集分别取得了1.793,1.586,1.369的加速比。
其他文献
在全球化、信息化和市场化三大时代潮流的背景下,国际竞争非常激烈,而国际竞争的实质就是国家之间各产业的竞争。如何有效地提高产业的竞争力是每个国家所关注的焦点。如今,随着开放式创新在企业层面的研究和实践应用不断结出硕果,开放式创新能够显著影响企业创新绩效已成为不争的事实。然而,现有研究对开放式创新如何影响产业,对开放式创新是否能够提高产业创新产出的关注较少。故本文旨在厘清开放式创新和产业创新产出之间的
神经精神类疾病一直都是困扰人们的一大难题,在人们对治疗方法的不断探索中,其治疗手段也在逐步发展。近年来发现,无创式脑调制技术对诊断和治疗神经性疾病有重要的作用,其采
直接乙醇燃料电池直接是以乙醇为燃料,将其化学能转化为电能的装置,其比能量高,环境污染小,是一种高效绿色的能源技术。同时,乙醇来源广泛,生产工艺成熟,无毒无害且易于存储
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术能大幅提升频谱利用率与传输速率,同时还能有效对抗多径时延扩展以及频率选择性衰落。但作为一种多载波
统计矩的点估计法是随机系统分析的简便且有效的方法之一,具有原理简洁清晰、操作简单易行的优点。计算精度、计算效率是评价点估计法优劣的两个主要指标。本文拟以系统的高
作为国家和区域经济发达程度、科技水平以及综合实力的体现,汽车工业在全球经济发展和社会进步中扮演着至关重要的角色。美国、欧洲和日本是全球汽车生产制造行业的三大集团
人类大脑是已知宇宙中最复杂的结构,它由数十亿的神经元和百万亿的突触连接构成,现有的科学研究已经证实脑部是一个产生意识、思想和情感的器官。人脑由多个组织构成,这些不
了解一种蛋白质所位于的亚细胞位置是了解其生物学功能的一个重要的步骤。高尔基体作为真核细胞中常见的细胞器和一些重要的疾病有着紧密的联系,比如:奥兹海默症以及帕金森症
随着人类社会的进步发展,能源与环境问题日益严重,开发新能源势在必行,风能作为一种可再生绿色能源逐渐受到人们的广泛关注。考虑到城市建筑中风环境的特点,建筑与风能一体化
近年来,信托业务经历了一波高速的发展,在有关法规颁布后,行业运行监管日臻完善。信托产品种类繁多,但是目前来看传统领域产品依然占有较大比例,房地产类信托产品依然占据一