论文部分内容阅读
生物信息学和计算生物学旨在综合利用生物学、数学和信息学等学科的理论与方法,研究对大规模生物数据的收集、存储、分析和解释,是解开生命奥秘的有力工具。随着新一代高通量测序技术的广泛应用,人们发现了大量非编码RNA。如何解释这些非编码RNA的功能成为当前的研究热点之一。近期的研究表明,这些非编码RNA可以通过竞争性地绑定micro RNA,影响m RNA的表达水平,这种转录后调控机制被称为竞争性内源RNA(ceRNA)调控。大量研究表明,ceRNA调控在多种生理和病理过程中发挥着重要作用。因此,挖掘生物体的ceRNA调控模式对解析疾病中基因调控的过程具有积极意义。本文围绕ceRNA调控模式挖掘问题,分别从ceRNA调控模式的识别和ceRNA调控的应用两个方面开展了相关研究工作。具体而言,本文的主要研究内容与贡献如下:构建了目前最为完整的长链非编码RNA(lnc RNA)亚细胞定位数据库lnc SLdb。ceRNA调控受到RNA亚细胞定位模式的影响,而lnc RNA作为ceRNA调控中的重要组成部分,其亚细胞定位模式目前并未明确。因此通过文献挖掘的方法,收集整理了当前研究中所获得的lnc RNA亚细胞定位的定性和定量实验数据,构建了lnc RNA亚细胞定位数据库lnc SLdb。lnc SLdb的当前版本中包含有来自9494个基因,3个主要物种(人类、小鼠和果蝇)的超过11000条lnc RNA转录本的亚细胞定位信息。lnc SLdb根据生物实验的结果,将lnc RNA的亚细胞定位模式分为三种基本类型(细胞核、细胞质和核质共存)和三种亚型(核糖体、染色质和核仁)。此外,还利用lnc SLdb中的数据,分析和讨论了可能影响lnc RNA亚细胞定位模式的序列特征。分析发现,k-mer对lnc RNA亚细胞定位具有一定的预测能力,且有些k-mer可能是lnc RNA留核的信号之一。而序列模体在细胞质内聚集的lnc RNA中被广泛发现,它们可能是lnc RNA转运出核的重要信号。基于多视角非负矩阵分解,结合传统相关性和动态相关性指标,提出了一种ceRNA调控模块挖掘方法LAce Module。针对当前ceRNA调控关系鉴别中假阳性过高的问题,引入流相关性(LA)作为鉴别ceRNA调控关系的动态相关性指标。实验结果表明,LA能够有效预测ceRNA调控关系,且LAce Module较传统方法能够有效地鉴别ceRNA调控模块。进一步针对乳腺肿瘤的ceRNA调控模块分析发现,ceRNA调控关系在乳腺肿瘤中扮演了非常重要的角色,尤其在细胞粘着性、细胞转移和细胞通信等方面具有重要作用。此外,分析也发现ceRNA调控关系及其关联的micro RNA可能是潜在的药物靶标和肿瘤治疗和预后的生物标记物。系统分析了新冠病毒感染患者外周血中各细胞类型ceRNA调控网络的变化情况。本文从网络拓扑特征、COVID-19相关节点拓扑特征、差异和保守模块和差异表达子网等四个方面进行了系统性分析。结果发现尽管新冠病毒感染后各细胞类型中ceRNA调控网络的整体拓扑特征变化不明显,但各细胞类型ceRNA调控网络的hub节点发生了明显变化,大量与抗病毒相关的基因成为了感染后ceRNA调控网络的hub节点,特别是在自然杀伤细胞中发现4个与麻疹病毒感染有关的基因被置于网络的重要位置。COVID-19相关节点拓扑特征分析发现,外周血细胞中的细胞因子相关节点的拓扑特征没有发生明显变化,而各细胞类型中差异表达基因相关节点的拓扑特征变化明显,特别是γ/δT细胞中的lnc RNA基因MALAT1,进一步分析发现MALAT1在感染状态下的特异性邻居节点与多种病原体感染和免疫信号通路密切相关。差异网络模块的分析发现新冠病毒感染后形成了富集抗病毒基因的模块,而保守模块分析发现非特异性免疫细胞中的保守模块功能变化不明显,但新冠病毒感染后特异性免疫细胞产生抗病毒免疫响应。最后,差异表达子网分析表明细胞中的差异表达可能与micro RNA的表达不同有关,人们可以使用现有药物对患者外周血中细胞的状态施加干扰和影响。针对当前ceRNA调控研究领域缺乏全面、易用、方便和统一的软件平台这一问题,设计并实现了基于Shiny框架的ceRNA调控网络构建与分析平台Ce Net Omnibus。Ce Net Omnibus共分为5个不同模块,分别实现数据加载、数据预处理、网络构建、网络可视化和网络分析等功能,可以进行ceRNA基因分组,数据样本、ceRNA基因和micro RNA筛选,根据一种或多种指标的ceRNA调控网络构建,以及ceRNA调控网络的拓扑特征分析、ceRNA调控模块挖掘和ceRNA调控网络或子网的生物学和医学意义分析等具体功能。