论文部分内容阅读
近年来,烈性传染病、化学毒剂和合成生物学的误用导致突发公共卫生事件的种类快速增加,现有的技术手段往往不足以快速应对未知的突发公共卫生事件。此外,重大疾病的诊疗仍然局限于单一组学数据层面,整合多组学数据用于重大疾病的辅助诊疗和药物研发尚在起步阶段。近几年开展的国际大型科学计划(如TCGA、LINCS计划等)已经积累了海量的关于基因扰动、药物刺激和疾病的多组学数据,依赖于大规模高质量数据的系统生物学也因此进入了快速发展期。这不仅为研究者提供了一个探索基于大数据的新一代应对突发公共卫生事件体系的机会,也让研究者有足够丰富的数据基础和不断完善的方法论去辅助重大疾病的诊断和治疗。本研究拟探究面向重大疾病辅助诊疗的多组学数据融合分析方法。在基于知识挖掘和关联网络的抗病毒药物重定位方面,本文系统地研究了病毒和宿主蛋白的关联关系,并基于关联知识预测了抗病毒药物。首先,根据病毒的宿主蛋白特点,将病毒划分为四类,比较了不同类别病毒的宿主蛋白在转录调控、PPI网络和关键基因等方面的异同。然后,利用已知的药-靶关联关系,系统评估了病毒宿主因子成为药物靶标的潜力。最后,以HSV、IAV-H1N1和HBV作为不同类别病毒的代表,从已上市药物列表中寻找防治这三种病毒的小分子化合物,并通过体外实验验证了预测抗病毒药物的有效性。实验结果表明,地塞米松和波舒替尼能有效抑制HSV-1;右美沙芬和阿托西汀在低剂量IAV-H1N1感染时有一定抑制作用;褪黑激素、白藜芦醇和依托度酸对HBV也具有一定抑制作用。本研究提出了基于转录组大数据的生化剂损伤机理解析和防治药物重定位体系框架。从GEO和LINCS数据库中系统收集了海量的已知生化剂和药物、基因扰动的转录组数据,并经过严格的预处理步骤构建了本地的数据集。而后,利用基因集富集分析算法对生化剂的细胞反应数据与基因沉默和药物扰动的细胞反应数据进行大规模比对,并结合已知的生化数据库,通过社团挖掘和聚类分析等算法,解析生化剂的细胞损伤机理,并预测防治药物。然后,利用机器学习领域的Softmax和深度神经网络模型,系统挖掘了LINCS数据集中所有已上市药物的新适应症和新靶标。本研究还建立了基于多组学数据融合的若干计算分析框架。首先,通过整合常见的三种多组学数据融合聚类方法,设计了多组学数据融合聚类分析平台ICM,并以急性髓性白血病的分型为案例展示该平台在重大疾病辅助诊断方面的能力。然后,提出了基于重启随机游走的多组学数据融合聚类算法RWRF和RWRNF,并以基于多组学数据的六种肿瘤分型为例,展示了新算法的优势。接着,提出了面向药物重定位的多组学数据融合计算框架PIMD,并构建了融合的药物相似性网络,通过整合五种统计学分析方法,从两个方面对已上市药物进行重定位预测分析。最后,整合药物、靶标和疾病的多组学数据,提出了基于异质网络重启随机游走的药-靶-病关联关系预测框架PAMDF,并通过十折交叉验证、与其他生物数据库交叉验证和社团分析等,验证了PAMDF框架的可靠性,计算分析结果显示PAMDF比基于单一组学数据的预测方法及其他二元关联预测算法更优。论文最后对本研究进行了总结,并对下一步的研究工作进行了展望。本文的创新性主要体现在以下两个方面。第一,基于关联知识和转录组学大数据的策略相较于传统的突发公共卫生事件应对策略,成本显著降低,周期显著缩短,随着世界各地实验室的公开数据不断积累,该体系也可以轻易扩展。第二,本研究提出并建立了一系列的多组学数据融合分析平台、算法和框架。采用多组学数据融合分析策略,研究者能够从多视角审视重大疾病的发生发展和药物的作用机制,也能够更快、更准确地应对未知的突发公共卫生事件。