基于多源异构特征融合的Moonlighting蛋白与lncRNA预测的深度学习模型研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:hard_158
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Moonlighting蛋白质(MPs)也称为多任务蛋白质,是一种具有两种以上截然不同功能的特殊蛋白。研究表明,MPs在细胞调节,疾病机理,生物进化,代谢机制等生物过程中发挥着重要作用。近年来,对MPs的研究开始引起人们的关注。目前已有一些收集数据库实验验证MPs。此外,长链非编码RNA(lnc RNA)的功能研究也是生物学界热门的方向。lnc RNA是一种核苷酸长度大于200nt,且不参与编码蛋白的碱基序列。虽然lnc RNA不编码蛋白,但lnc RNA参与了众多生物过程,包括转录沉默,染色体修饰,核内运输等。因此对lnc RNA的功能研究对发现并理解众多生物机理有重要的推动作用。与MPs相对应,同样存在一种lnc RNA具有多种功能,称为Moonlighting lnc RNA(Mlncs)。Mlncs已被现有的研究推断其具有非常重要的作用,如亚细胞定位,表观遗传等,并且Mlncs也被认为对癌症的治疗有重要意义。相较于近年才开始引起人们关注的MPs研究,Mlncs的研究尚处于萌芽阶段,目前还未见有数据库收集被实验验证的Mlncs。通过生物学实验验证MPs和Mlncs花费昂贵,耗时耗力,且难以在全基因组尺度上大规模鉴定MPs和Mlncs。因此我们论文的工作分别从MPs和Mlncs预测模型构建两方面展开研究。目前已有的MPs预测的计算模型,需要提供蛋白质的多种关联、表达以及功能相关的注释信息。但很多蛋白质的相关注释信息缺失,这极大限制了已有算法的大规模应用。因此,我们开发了一个从序列出发的多模态深度集成学习架构下的MPs从头预测模型MEL-MP(Multimodal Ensemble Learning for predicting MPs)。主要包括1)基于序列的多模态特征(序列组成频率的自相关特征,进化信息,物理化学性质以及二级结构信息)提取;2)不同模态特征的特征学习和预测子模型构建;3)构建多模态特征融合的深度学习架构;4)全面系统的与已有的多模态特征融合方法以及现有的基于计算方法的MPs预测工具比较,MEL-MP具有最优的预测性能,在十折交叉验证的下F1值达到了0.892。另一方面,为了进一步验证我们模型的有效性和实用性,我们应用MEL-MP在人类的全基因组尺度上鉴定MPs,并进一步从染色体分布、疾病关联、进化历史以及功能分析四个不同的角度,对基于我们模型预测的MPs进行了深入的挖掘和分析,从生物角度验证了我们预测结果的有效性。此外为了方便用户的使用,我们开发了MELMP的在线服务平台。针对Mlncs预测,目前已有的工作极其有限,而且是基于网络分析的方式。由于lnc RNA与蛋白质交互(LPI)是lnc RNA最重要和最复杂的分子作用机制之一,因此通过与lncRNAs互作的蛋白质特征对推断lnc RNA分子作用机理、理解其功能具有十分重要的意义,LPI信息是理解和推断lnc RNA功能的最主要途径之一,为此我们论文的第二部分工作是基于lnc RNA-蛋白质互作信息,构建Mlncs预测模型。主要工作是整合lncRNAs互作蛋白质的GO功能和基于多模态深度集成的MPs预测方法MEL-MP的蛋白质的Moonlighting性质,采用两种方式对人类的Mlncs进行无监督鉴别,包括功能注释的相似度聚类算法和基于lnc RNA-MPs关联的富集分析算法,整合两种方法识别到的Mlncs取并集作为最终的Mlncs预测结果。最终,我们基于我们预测得到的Mlncs样本,构建了识别Mlncs的深度学习模型。这表明我们的工作为后续Mlncs研究提供了大量的候选参考。本文提出的基于多源异构信息融合的深度学习模型对MPs和Mlncs的识别与研究起到了很好的推动作用,从而为未来深入研究MPs与Mlncs提供更多的模型和数据支持。
其他文献
学校教务系统给广大师生提供了方便快捷的在线操作,能够减少师生日常教务活动所耗精力。但是在目前吉林大学的教务工作被分散多个服务之上,不同服务之间的信息难以共享、技术架构各有不同,对学校的服务治理提出较高挑战。如何将众多服务进行整合,对各个服务进行统一管理,对校内业务进行领域划分,使得各个服务的代码能够为其他服务所用,既能减少开发成本、加快业务迭代过程又能减少服务运维难度成为治理当前教务系统的新挑战。
随着生活水平的提高,轨道交通成为满足人们不断增长的便捷出行需求的重要交通工具。在轨道交通发展中,不锈钢轨道客车以其轻量化、维护周期长等优点成为发展最快的轨道交通载具之一。为实现不锈钢轨道客车车体的轻量化,主要采用薄板拼装焊接结构。电阻点焊是不锈钢车体制造的主要焊接工艺,每辆车体有高达4~5万个点焊焊点,是不锈钢车体焊接制造的关键工艺,其焊接质量亦关系车体的制造质量。因而对点焊质量高效检测与评估,对
作为一种新型的绿色环保材料,镁合金具有较好的工程应用前景,但因其较差的耐蚀性受到限制。尤其是在服役环境和外加载荷的共同作用下,镁合金极易发生应力腐蚀和氢脆,造成结构件突发性断裂。这不仅限制了镁合金的应用,造成经济损失,而且存在极大的安全隐患。因此,改善镁合金的抗应力腐蚀和氢脆问题变得极为重要,相关研究也倍受关注。本文经过设计并制备出AZ91和AZ91-xGd(x=0.5、1.0和1.5 wt.%)
近年来传染性极强的新型冠状病毒在全球肆虐,由于其呼吸道飞沫传播和接触传播特点,对生物信息识别技术的应用提出了新的要求和挑战。虹膜识别技术因其非接触性、稳定性、唯一性等特点,符合实际应用需求现已经逐渐成为生物信息识别技术中热度最高的身份识别认证技术。本文以虹膜库中通过质量评价的虹膜图像为研究对象,针对传统虹膜特征提取与虹膜识别算法出现的问题做出了改进,提高了识别准确率及算法的性能。传统单一特征提取算
随着经济发展,商用车是全国货品转运的枢纽,是物流产业的重要一环,它的作用无比关键。但商用车质量高,污染物排放量更多,行驶时惯性大,发生事故可能造成的伤害更严重。对于商用车既要进行合理的轻量化设计又要提高碰撞安全性能的研究显得尤为重要,所以基于此背景,研发出了同时符合以上要求的以高强钢为材料的“日”字形截面商用车防护梁制件。“日”字形截面高强钢型材可将高强钢的防撞性能和吸能特性发挥最大,而利用绕弯成
近些年以来,在人工智能科技浪潮的引领下,有关于计算机视觉在医疗诊断方面的研究呈现飞速并全面发展的态势,医学影像有关的临床应用具有了更加深远和广泛的意义。与此同时,随着医学技术的日异变革与发展,创伤面积小、病痛程度轻、恢复速度较快的微小创口手术受到了越来越多手术患者们的青睐,以腹腔镜手术为代表的微创手术逐渐成为了临床实践中的一个热门研究领域。不同于传统大切口开刀手术,现代的腹腔镜手术通过腹部小切口放
铝合金因其生产成本低、比强度高,兼备良好的成形性、抗腐蚀性、焊接性和导电性,在家用电器、汽车制造、机械设备和建筑耗材等领域中发挥着重要作用,成为现代化工业生产中广泛使用的轻量化有色金属材料之一。但是,随着现代工业的迅猛发展,现有的Al-Mg系合金无法满足制造业的更高要求,人们希望Al-Mg合金同时兼备高强度和高塑性的想法仍然难以实现。针对Al-Mg合金,常见的大塑性变形(SPD)方法难以大量应用到
人类基因组计划实施,生物技术快速发展,生物信息学诞生并日新月异。GWAS(Genome-Wide Association Studies)是生物信息学中的重要研究问题之一,GWAS研究提供了通往对多基因疾病进行研究的道路,可以发现大量从来没有被人类知晓的SNPs遗传标记,给生物科学家提供了更多发现多基因疾病相关的研究线索。其中在全基因组层面上进行上位性检测对帮助研究复杂疾病的成因意义重大。近年来,
随着深度学习技术在各行各业中的快速发展,样本数据迅速增大,深度神经网络日益复杂。深度学习应用所需的计算和存储资源快速增长。如何高效利用有限的计算资源来满足快速增长的深度学习应用需求成为亟待解决的问题。分布式深度学习技术成为大规模深度学习应用的重要支撑技术。本文重点研究如何高效地利用分布式深度学习集群的资源,从而提高深度学习作业的吞吐率,缩短深度学习作业的训练时间。目前,分布式深度学习集群的资源分配
多成像模式下的各类医学图像具有不同的功能特点,单一模态的医学图像通常不能提供足够的信息。因此,将不同特点的医学图像融合起来辅助诊断成为了研究热点,比如磁共振图像与计算机断层图像的融合、磁共振图像和单光子反射断层图像的融合以及磁共振图像和正电子发射断层图像的融合。但是由于图像融合算法的设置,可能使融合结果图产生一些视觉问题影响医生诊断。针对不同类型的图像融合算法产生的问题,本文设计了两种算法用于融合