论文部分内容阅读
随着生物信息的发展和多层次高通量组学数据的出现,生命科学研究进入了大数据时代,同时也面临着新的革命。生物分子层面的研究模式从单个分子扩展到多个分子以及它们之间的相互作用。计算系统生物学为挖掘生物大数据提供了数学理论基础与方法储备。尤其,网络作为刻画大数据关系的有力工具,逐渐被应用于分析各种高通量生物数据。其中,复杂疾病作为威害人类健康的主要杀手,其致病机理、早期诊断和后期治疗成为生物医学最关注的研究领域。如何从分子网络角度结合高通量生物组学数据来研究复杂疾病的发病机制及致病基因是目前亟待解决的问题。本文主要利用复杂网络本身的数学特性,结合生物高通量组学数据,建立了针对复杂疾病的新型分子网络模型,并对疾病的致病机理、早期诊断及富集的生物通路进行了深入研究。现有的大多数疾病分子网络模型,无法真实地反映现实网络的随机波动和噪音。对此,我们提出利用生物组学数据的多阶统计信息来构建分子网络模型,并提出具体的分析算法。其次,我们针对临床样本数据少这一现实,利用多阶统计信息构建了单样本分子网络:差异网络模型,并利用该模型对生物通路富集问题进行了深入研究。本文的主要研究成果有:1.利用生物组学数据(主要是基因表达数据)的一阶、二阶统计信息,建立了新型的多阶信息分子网络。利用数据的多阶信息,尽可能地还原生物分子网络的真实发展过程。通过对多阶信息分子网络理论与应用的研究,我们发现,结合了二阶统计信息的生物分子网络(边网络)能更好地缩小对致病基因的搜索范畴,从而能更精确地找到与疾病相关的致病基因。通过对H3N2流感病毒感染后的时序基因表达数据的分析,我们发现,通过边网络模型找到的疾病基因不仅能有效预测病毒感染的发生与否,还能尽可能早地给出预测结果。也就是说这些基因在对H3N2流感感染的早期预测上具有高效的生物标记功能。2.从单样本数据出发,利用多阶统计信息构建了单样本分子网络。不同于基础理论研究,临床诊断中的实际样本数量是极其有限的,单样本分子网络将为复杂疾病分子网络模型的实际应用创造条件。通过设计合理的可加性量化指标,我们发现,整合了基因表达值与基因表达相关性值而构建的差异表达网络能更全面地提取正常与疾病生物分子网络之间的差异信息,从而提高疾病预测的精度及鲁棒性。在对前列腺癌及糖尿病的疾病数据分析中,我们取得了较丰富的工作成果:全面评估了各种差异信息对疾病预测的贡献;挖掘了具有显著生物意义的差异模块;识别了与疾病异质性相关的生物功能模块,例如可变剪切;筛选了高精度且具有鲁棒性的生物标记模块。3.为了进一步比较多阶信息分子网络与传统的一阶信息网络,基于差异表达网络开发了集成生物通路富集分析模型及算法。传统的生物通路富集分析仅仅考虑了点网络中一阶信息上的差异,而集成生物通路富集分析将同时考虑二阶信息上的差异。这为解释复杂疾病分子网络的生物意义提供了新的视角。通过设计针对双重差异的超几何检验指标,我们发现,整合了表达均值差异与表达方差差异的集成生物通路富集分析算法,在异质性样本中的富集分析能力显著提高。在模型评估中,我们在大量疾病数据上对现有的多种生物通路富集分析方法进行了比较,其结果体现了集成生物通路富集分析算法的优势和扩展性。在对典型的异质性疾病-糖尿病的研究中,集成生物通路富集分析有效地识别出了异常调控的生物通路及这些通路标记下的潜在糖尿病亚型。综上,我们对复杂疾病分子网络的研究,为理解疾病的致病机理和疾病的早期预测做出了一定的贡献。多阶信息分子网络(边网络)将更全面地包含生物组学数据中的信息,从而可以为疾病研究定位更少更精确的致病候选基因,同时也为疾病预测提供了更精细的分析手段。单样本分子网络(差异网络模型)则克服了实际应用中样本数据少的问题,为实现个体化医疗提供了理论与技术基础。