基于深度学习的原核生物smORF预测方法的开发与应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:znchen1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
小开放阅读框(Small Open Reading Frame,sm ORF)为编码蛋白质长度不超过100个氨基酸的序列,编码sm ORF及其编码产物长期以来被忽视。近年来质谱和核糖体印迹测序等技术的发展加快了对编码sm ORF的研究,其编码产物被发现具有调控生化过程、细胞间通信、维持细胞内环境稳定等多种生物功能,这使得对编码sm ORF的研究逐渐被重视起来。传统基因注释工具利用特征工程选择的特征来识别基因,已有的特征难以将编码sm ORF与数量巨大的随机序列区分开,因此这些工具忽略了对编码sm ORF的注释。开发基于计算的编码sm ORF预测工具能够为相应的研究提供支持,提高针对sm ORF研究的效率。目前编码sm ORF注释工具的开发处于探索阶段,直接对DNA序列进行注释还存在很多挑战,原核生物基因结构相对简单,适合作为注释工具算法研究对象。另一方面,分离培养等瓶颈使得原核生物编码sm ORF注释中基于计算的工具能发挥更重要的作用。编码sm ORF注释工具开发中,一种思路是使用新的特征,例如Sm ORFer使用序列的周期性来识别编码区域,这种方法预测结果假阳性错误较多,只适用于粗略的筛选。机器学习方法可以从大量序列数据中学习复杂的模式,Ran SEPs使用随机森林方法注释原核生物基因组中编码sm ORF。但是该工具需要输入物种的详细基因注释信息训练随机森林模型,使得该方法只能用于原核生物中已经完整测序并注释的物种。深度学习方法可以突破特征工程的限制,在生物信息学领域得到了许多应用。目前只有Sm ORFinder将深度学习技术用于编码sm ORF注释,该工具使用口腔、肠道等与人类相关的宏基因组中的sm ORF进行训练,集成卷积神经网络,长短期记忆网络和隐马尔可夫模型预测编码sm ORF。Sm ORFinder的训练数据来源于特定的环境,这使得数据可能存在偏差。将深度学习技术用于编码sm ORF注释的过程中,数据收集、模型结构等方面还有很多改进空间。本文结合长短期记忆网络、一维卷积神经网络和注意力机制,提高网络提取序列特征的能力,开发了编码sm ORF预测方法Deepsm ORF。在口腔、肠道等人类相关的宏基因组sm ORF数据集测试中,Deepsm ORF的F1-score比Sm ORFinder高出3.2%。以NCBI数据库原核生物注释编码sm ORF为基础创建数据集对模型进行训练,对Deepsm ORF学习得到信息进行的尝试性分析显示模型学习到了编码序列的生物特征,训练过程没有被数据偏差干扰。在模拟真实环境的独立测试集上,模型能够从数量巨大的随机序列中识别出编码sm ORF,F1-score达到0.836。基因组中存在大量目前了解不多的sm ORF,收集数据过程中无论使用何种标准将其分为编码和非编码序列都难免造成一些偏差。另外,实际应用中基因组中数量巨大的随机序列会使预测假阳性错误影响模型应用效果,因此对模型应用效果进行评价是十分重要的。将Deepsm ORF用于大肠杆菌、枯草芽孢杆菌和金黄色葡萄球菌,使用核糖体印迹数据,质谱数据,结构域信息,信号肽信息对模型预测的编码sm ORF进行验证。在三个物种的预测结果中,分别有62.3%、64.9%和50.3%的编码sm ORF具有其他形式的证据证明其具有生物功能。说明Deepsm ORF的训练过程没有明显受到数据偏差影响,假阳性错误在可以接受范围内,模型可实际应用于原核生物编码sm ORF筛选。
其他文献
血管内皮广泛存在于多个组织和器官中,在调节正常血管功能中起着重要作用。血管内皮功能障碍在心血管疾病、代谢性疾病、呼吸系统疾病,甚至是感染性疾病(如新冠肺炎)的发生发展进程中发挥着至关重要的作用。因此,深入研究血管内皮功能和内皮功能障碍调节机制,对于全面了解内皮功能的调控机理,指导内皮细胞功能障碍相关疾病的靶向治疗和药物研发具有重要意义。NINJ2是ninjurins家族成员之一,由188个氨基酸残
学位
代谢型谷氨酸受体5(Metabotropic glutamate receptor 5,mGlu5)属于C家族G蛋白偶联受体(G protein coupled receptor,GPCR)。大量研究报道,激动剂与mGlu5结合使捕蝇夹结构域(Venus flytrap domain,VFT)关闭,进而通过半胱氨酸富集区传递到七次跨膜区的第2个胞外环,导致每个亚基的跨膜区旋转到TM6界面,从而激活
学位
长寿作为人类永恒的科学命题,探究与寿命相关的机制有着重要的科学意义和医学价值。秀丽隐杆线虫(线虫)是一种生存于土壤中的线虫,具有寿命短、生长时间快和全基因组测序完成等特点,这让其成为研究寿命及相关机制的常用模式动物。蛋白质稳态是长寿和健康的重要影响因素之一,而热休克反应则与蛋白质稳态的维持密不可分。本课题以热休克反应作为切入点,探究哪些基因对其有影响。哺乳动物Nrf/CNC蛋白(Nrf1、Nrf2
学位
由于癌症传统疗法的局限性,基于纳米技术的纳米药物被开发出来。然而临床使用的纳米药物包括多柔比星脂质体(Doxil)和白蛋白结合紫杉醇(Abraxane)等在面对实体瘤时仅表现出有限的治疗效果。递送障碍和缺乏肿瘤干细胞杀伤是纳米药物难以获得理想治疗效果的主要原因。目前,纳米材料介导的光热疗法在增强纳米药物的递送和肿瘤干细胞杀伤表现出巨大的潜力。一方面光热能改善肿瘤微环境,提高纳米药物的肿瘤富集和深部
学位
自噬是真核细胞中一种基础的细胞行为,在细胞受外界环境胁迫下的生存和自身稳态的维持过程中都发挥着十分重要的功能。在自噬过程中,细胞质中的蛋白质、细胞器等物质由双层膜包被形成自噬体(autophagosome),随后与溶酶体或液泡融合,内容物被进一步降解。在自噬体形成的过程中,多个自噬相关基因(autophagy-related gene,ATG)表达的蛋白直接参与其中。其中Atg18可以作为磷脂酰肌
学位
心房颤动(atrial fibrillation,AF)是最常见的心律失常。房颤的发生与维持与心房结构重构和电重构有关,心房结构重塑包括炎症、细胞肥大、心房扩张和纤维化,它们作为致心律失常的底物(substrate)累积,导致异常电信号的形成和传导。电重构包括影响心房心肌激活和传导的离子通道特性的改变,间隙连接的功能障碍或损伤可能导致心律失常。目前房颤的遗传基础尚不清楚,本课题中,通过对房颤病人进
学位
高等植物种子萌发需要在合适的季节和环境条件下进行,该过程受到种子休眠机制的调控。研究发现植物特有的基因DOG1(DELAY OF GERMINATION 1)可调控种子休眠,并参与ABA和糖信号等通路。DOG1首次是在模式植物拟南芥中发现的,其他植物中DOG1的同源物DOG1L(DOG1-LIKE)也有所报道。小麦是全球主粮之一。尽管DOG1在拟南芥中有较详尽的功能研究,但有关小麦TaDOG1L的
学位
代谢型γ-氨基丁酸B型受体(Metabotropicγ-aminobutyric acid receptor B,GABABreceptor)属于C族G蛋白偶联受体(G protein coupled receptor,GPCR),由两个亚基GB1和GB2组成。GABAB受体是重要的抑制性神经递质受体,其功能异常与多种疾病相关。据报道,编码GB2亚基的GABBR2的A567T、A707T突变与雷特
学位
提高油料作物种子含油量对于提高植物油产量具有重要意义。溶血磷脂酸酰基转移酶(Lysophosphatidate acyltransferase,LPAT)以溶血磷脂酸为底物生成磷脂酸,是生物体内油脂合成过程中的关键酶。课题组前期研究发现,在拟南芥中超表达甘蓝型油菜BnLPAT2基因可提高拟南芥种子含油量和亚麻酸含量,然而其机理尚未得到充分解析。为研究超表达BnLPAT2拟南芥种子亚麻酸积累过程中的
学位
近日时钟是生物体内在的一套计时机制,在分子层面由十余个基因组成的转录-翻译反馈调控环路构成。它使生物体在生理活动各方面表现出近24 h的节律性变化,即近日节律。我们通常用周期、振幅、相位这三个参数来描述这种生物节律。现有研究大多集中于周期和振幅,生物节律的相位调控研究相对较少。研究者前期发现一个家系中部分成员在冬季表现出明显睡眠相位提前(即极度早睡早起),这些个体携带有生物钟基因PERIOD3的两
学位