论文部分内容阅读
随着测序技术的不断发展,大规模的基因组序列分析识别出了大量的长链非编码RNA(lnc RNA)。这些lnc RNA已经被证实在基因组印记、细胞增殖、免疫应答、疾病的发生发展、恶性肿瘤的形成以及其他的生物学过程中起着关键的作用。然而,目前大部分的长非编码RNA在复杂疾病中的功能角色和调控机制仍然不清楚。风险通路识别分析对于理解这些非编码RNA的作用功能以及揭示复杂疾病的发生发展机制具有重要的推动意义。在本论文中,整合多个数据资源系统识别复杂疾病风险通路,预测复杂疾病lnc RNA功能相关的通路并全面剖析了lnc RNA在恶性肿瘤中的竞争性调控。第一部分,为了促进lnc RNA的功能研究以及理解复杂疾病的发生发展机制,我们通过整合lnc RNA/m RNA表达数据,通路的拓扑结构数据以及lnc RNA-m RNA相关的分子网络数据,提出并刻画了一个有效的方法Lnc Subpathway用来识别复杂疾病风险lnc RNA功能相关的子通路,定位复杂疾病风险子通路区域。我们利用仿真数据分析刻画了Lnc Subpathway方法的特性,评估了方法的敏感性和假阳性率。结果表明,Lnc Subpathway方法的敏感性和假阳性率都在可接受的范围内,并且能够准确的定位通路中lnc RNA相关的失调子区域。然后,利用Lnc Subpathway方法识别恶性肿瘤风险lnc RNA功能相关的子通路区域。Lnc Subpathway能够准确识别结直肠癌相关的风险子通路区域,并且证实识别出的子区域与相应lnc RNA的功能相关。同时,利用Lnc Subpathway方法识别乳腺癌不同亚型lnc RNA相关的风险子通路。结果表明,Lnc Subpathway能够识别与不同亚型的临床和分子特点相关的功能子通路区域。这暗示着,该方法能够在子通路层面更精细的阐释lnc RNA在复杂疾病中的功能角色以及疾病的发生发展机制。此外,基于多个不同的结直肠癌数据集,对该方法进行了复现性和稳定性的评估。第二部分,我们关注复杂疾病中另外一类重要的疾病即代谢类疾病。目前,代谢类疾病如糖尿病等越来越受到人们的关注并且严重威胁着人类的健康。代谢类疾病的发生和发展与多种类型的生物分子改变相关。在该部分中,我们首先构建了一个高质量的数据资源Bio M2Met Disease(http://www.bio-bigdata.com/Bio M2Met Disease/)用来搜集存储代谢类疾病相关的生物分子。目前,数据库中存储了945个生物分子(micro RNA,代谢子和小分子药物)与77种代谢类疾病的来自14个不同物种的2189对实验证实的关联关系。这些实验证实的代谢类疾病与生物分子关联关系来自手工挖掘1000多篇已经发表的文献。然后,我们整合四种代谢类疾病(一型糖尿病、二型糖尿病、肥胖和衰老)相关的风险基因集合,利用富集分析方法识别四种不同代谢疾病相关基因富集的风险通路。我们分别基于糖尿病的不同组织基因表达数据集,构建二型糖尿病不同组织中包括肝组织,肌肉组织和脂肪组织的风险通路crosstalk网络。通过对二型糖尿病不同组织的风险通路crosstalk网络的进一步比较分析,我们识别出一个二型糖尿病的核心风险通路,并发现许多lnc RNA与注释在该核心通路中的基因相关联。这表明这些lnc RNA可能通过影响核心通路的功能在二型糖尿病中具有重要的作用。以上的研究结果对于理解二型糖尿病的发生发展机制以及后续开发新的治疗靶点具有重要的指导作用。第三部分,最近的研究表明lnc RNA能够作为竞争性的内源RNA(ce RNA)吸附micro RNA(mi RNA)分子来间接调控mi RNA的靶蛋白编码基因,进而在恶性肿瘤的发生发展中具有重要的作用。为了进一步理解lnc RNA在复杂疾病中的调控机制与作用功能,在该部分中,我们通过整合多维分子谱数据系统性地刻画了12种不同的恶性肿瘤中lnc RNA的竞争性调控。分析结果表明在肿瘤的正常和疾病状态下lnc RNA的竞争性调控有很大的差异,同时来自相同组织起源的恶性肿瘤的lnc RNA-m RNA间的竞争性调控关系更相似。在肿瘤状态下的网络上ce RNA相关分子具有更加保守的特性,同时这些分子在正常和肿瘤的发生过程中都具有关键的作用。通过网络hub节点的分析,我们发现网络上保守的关键的lnc RNA在不同的肿瘤中参与不同的癌症hallmark过程。网络的动态性分析揭示ce RNA调控在肿瘤中的关键作用。通过分析保守的ce RNA网络互作关系,发现mi RNA介导的ce RNA调控在不同的肿瘤中具有不同的模式。同时,我们分析了癌症特异的ce RNA互作,发现一些lnc RNA协同的调控癌症hallmark过程中的癌症driver基因。最后,网络模块分析发现ce RNA网络模块具有预测恶性肿瘤患者预后生存的潜能。综上所述,本论文融合多维分子谱数据和分子互作网络数据,开发了复杂疾病lnc RNA相关的风险子通路识别方法,系统识别了结直肠癌和乳腺癌不同亚型的lnc RNA功能相关风险子通路;并通过风险通路crosstalk网络的构建与分析挖掘出一个二型糖尿病的核心通路;我们进一步关注了lnc RNA的一类重要调控机制即ce RNA调控,系统剖析了恶性肿瘤中lnc RNA相关的竞争性调控。本课题的研究,对于理解lnc RNA在复杂疾病中的作用功能,阐释复杂疾病的发生发展机制以及开发新的治疗靶点等具有重要的推动意义。