基于深度学习的增强子调控序列识别研究

来源 :中国人民解放军军事医学科学院 | 被引量 : 7次 | 上传用户:zhang506079845
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新一代测序技术(Next-Generation Sequencing,NGS)对整个测序领域带来重大革新,生物学各个领域的研究得益于NGS技术,能够快速、廉价地获得高通量层序数据。这一进步彻底改变了以往研究人员针对基础研究、临床研究的方法。同时,海量的数据使得新的存储方式和计算方法不断提出。从前以注重生化实验的研究方法已经慢慢转向注重后期数据分析。从前需要大量数据才能建立的组学分析以及多组学间的分析如今已成为可能,加快了人们对复杂生命现象机制的理解。数据的爆炸式增长,使得研究人员意识到,需要有新的知识组织形式帮助后人更好地理解当前的研究进展。同时,数据深层次的意义需要人们反复地对所积累的数据进行挖掘。因此,人类基因组计划(Human Genome Project,HGP)是生物学领域中一个重要的里程碑,该计划致力于读取人类基因组全部的碱基序列。然而,我们的目的不仅仅于此,更重要的是理解DNA序列中隐含的各种功能。随后,表观路线图计划(Roadmap Epigenomics Project)和DNA元件百科全书计划(Encyclopedia of DNA Elements Project,ENCODE)是人类进一步探索遗传奥秘的两大重要项目。这两个项目收集了大量来自于多组学的DNase-Seq、RNASeq、Ch IP-Seq等实验数据。生物学领域中某个组学的研究往往不是独立的,它仅仅反映了基因组单个方面的性质,然而多组学之间其实存在着非常紧密的联系。如何从一个系统的、整体的角度将不同组学的数据结合起来研究已成为当前生物信息学领域最重要的研究方法之一。通过过去40多年来的研究证明,在DNA序列上存在一系列的顺式调控序列(cis-regulatory sequences),如果某些基因突变发生在这些调控元件的区域,将导致最终表型的差异。其中,顺式调控元件(cis-regulatory elements)就是激活和维持转录发生的关键。深入理解顺式调控元件对于理解生命活动的机理、人类疾病发生的原因以及物种之间的保守性规律等非常重要。增强子(Enhancer)是一类远端顺式作用的DNA调控元件,它们在不同时间、不同细胞系的基因表达中起到了关键的调控作用。当前,理解增强子的特性、作用目标和调控活动是一个非常重要的研究领域,因为它间接地对发育、细胞鉴定、表达多样性、进化以及人类疾病起到关键作用。由于增强子元件没有共同的序列特征,而每个增强子的作用目标也无法精确定位,此外,增强子的调控作用具有很强的细胞/组织特异性。所以在哺乳类基因组中,如何准确识别增强子依然存在很大的挑战。近年来,得益于深度测序技术的发展,使得大量增强子预测的计算方法得以实现。这些预测方法可以利用该测序技术获得来自不同数据源的充足数据。依据数据的不同来源,可以大致将增强子识别算法从概念上分为3类。不同的计算方法依赖不同的数据集、输入特征或监督学习与非监督学习的组合。第一类使用生物信息学计算方法识别增强子利用的是表观遗传学数据,比如说从ChIP-seq数据中获取的组蛋白信息、DNase高敏位点(DHSs)或转录因子结合位点(TFBSs),这一类方法主要利用聚类或非监督学习的方式完成。第二类方法是将增强子识别问题抽象成一个利用有监督的机器学习方法来区分增强子区域和非增强子区域的二分类问题,比如说利用支持向量机(SVMs)、人工神经网络(ANNs)、决策树(DTs)、随机森林(RFs)、图论模型(PGMs)或是近年来最火的深度学习(DLs)。第三类利用的生物信息学方法是通过对增强子的高精度扫描,从而获得高质量的数据,以此来测试人类、小鼠、果蝇和酵母中的增强子。尽管这些增强子识别方法都起到了一定的效果,但是在生物信息学层面上依然存在很多技术问题,比如说类别不平衡、过拟合问题、参数难确定以及泛化能力差的问题。一个主要的困难是缺乏大量实验验证的人类或其他物种的增强子区域。因此,我们迫切需要基于有限的实验验证数据的计算方法来挖掘增强子序列中关于转录调控编码功能的规律。从2006年由Genoffery Hinton首次提出深度学习(Deep Learning)的概念,到2012年Hinton团队的卷积神经网络(Convolutional Neural Network)模型在ImageNet图像识别比赛上大杀四方,再到2016年Alpha Go程序完胜人类围棋高手,这三个事件彻底掀起了全球对人工智能技术的研究热潮。得益于近年来高性能CPU、GPU、FPGA等计算硬件的发展,深度学习高复杂度复杂的计算问题得以解决。同时,凭借着深度学习算法在提取不同层次的抽象特征、学习特征上的强大能力,配合当前海量的研究数据,它的性能已经远远超越传统的机器学习算法。深度学习已经在图像识别、自然语言处理、语音识别、量化交易等众多领域有着广泛应用。当然,深度学习算法也拓宽了生物医学领域的研究方法,近年来有不少如医学影像处理、药物靶标筛选、基因突变位点评估等问题通过深度学习方法获得不错的效果,并且相继发表了研究成果。在本文中,我们详细分析了顺式调控元件的研究现状,重点关注了增强子调控元件的相关的各种研究方法。随后,我们描述了使用机器学习、深度学习解决相关问题的一般方法以及它们之间的区别和优劣。通过分析利用机器学习、深度学习识别增强子调控元件的各类方法,我们发现其中存在着准确率低、泛化能力差、受限于数据来源等问题。因此,我们构建了一个基于深度学习的混合模型,起名为BiRen,它结合了卷积神经网络(CNN)对于序列数据的表示能力以及能够较好处理DNA序列长距离依赖问题的GRU单元双向循环神经网络(BRNN),通过这个模型,我们可以只依赖DNA序列本身就能准确识别增强子。BiRen的训练数据来自VISTA增强子数据库的有限的实验验证数据,数据库中增强子的增强效应在转基因小鼠上完成了验证。我们直接使用原始DNA序列来训练BiRen,与另外两个基于motifs或k-mers的最新的基于序列特征的模型比较,BiRen具有更高的准确率,并且能够有效避免噪声数据的干扰,同时在不同细胞系中也具有更好的泛化能力。我们的BiRen模型能够帮助研究人员对增强子序列带来更深层次的理解。
其他文献
<正> 随着演讲活动日益广泛的开展,越来越多的演讲爱好者在探究“怎样写演讲辞”的问题。“怎样写”似乎只是个方法问题,但方法是从属于目的、决定于性质的。要想掌握“怎样
城乡规划作为一项公共政策,编制与实施中多元主体的参与十分必要。在住建部和无止桥基金会的支持下研究团队在岜扒村开展参与式规划实践研究,实践中呈现出村民参与意识淡薄、
为了全面加强环境资源审判工作,我国需要将传统的民事、行政、刑事审判制度有机结合起来,实行环境司法"三审合一"。"三审合一"有利于统一环境资源案件的裁判尺度,实现环境资
首先对民用建筑供配电系统及其可靠性进行了简单阐述,随后论述了民用建筑供配电系统可靠性分析方法,最后从促进柴油发电机组功能的充分发挥、提高电气设计的科学性、优化相关
介绍了酵素菌肥的组成和功能 ,重点阐述了酵素菌肥在蔬菜、粮食作物和大田经济作物上应用与等值的化肥和土杂肥相比表现出明显的增产效果。该肥发展前景广阔 ,是生产绿色食品
差速器是驱动桥的组成部件之一,压入设备是在差速器装配生产线中比较重要的设备之一,如果设计不合理,在生产过程中就会出现诸多问题,这些问题的存在会直接影响到产品的使用质
就基因工程在玉米育种方面的应用情况作一简要综述,主要包括抗病( 抗病毒、抗病菌) 、抗虫、抗除草剂及不育系方面的研究。
对两种不同来源的南极磷虾粉营养成分进行了分析和评价,并与进口鱼粉的营养成分进行了比较。结果显示,上海开创远洋渔业有限公司开利轮产南极磷虾粉(磷虾粉S)粗蛋白含量为62.
<正>诗歌语言不同于普通语言,它具有多度性。一般说来,用以传达信息的普通语言只有一度,即理解度。而作为交流情感和体验的诗歌语言则至少有四度。除理解度外,还有感官度、感
近年来,我国事业单位的劳资管理方面的问题凸显,已经对事业单位的发展产生了不可小窥的影响,因此充分发挥劳资管理的激励的作用,系统的研究如何构建高效能的劳资标准化管理机