论文部分内容阅读
癌症不仅给患者带来极大的痛苦,还给无数家庭乃至整个国家带来沉重的经济负担。早期诊断是有效治疗癌症的关键所在。生物标志物在癌症早期诊断中具有重要价值。生物标志物是指那些能够客观检测和评价癌症发生、发展和预后的指示因子,如基因、microRNA和遗传突变等。一些癌症相关的生物标志物已被发现,但大多数仍然不能用于癌症的精准预测、诊断和预后评估。其中一个原因在于癌症病理机制极其复杂,患同一癌症的不同病人之间标志物不尽相同,同一标志物可能存在于多种癌症中。越来越多的研究表明癌症是多个基因、microRNA等突变、转录后修饰及其之间复杂调控关系的紊乱,以及环境因素等共同作用的结果。因此,新的生物标志物识别方法亟待提出。实验手段识别癌症生物标志物非常昂贵且效率低,基于计算方法的癌症生物标志物识别能够大大降低成本和缩短识别周期。随着测序技术的发展,基因组学、转录组学、蛋白组学与代谢组学等多种组学数据海量涌现,为系统了解癌症的病理病因提供了可能,也为基于计算方法的癌症生物标志物识别提供了坚实的数据基础。如何整合多组学数据设计并实现高效的癌症生物标志物识别算法,找出更多更有价值的癌症生物标志物,以供研究人员有针对性的进行实验探究将是本文研究的主要内容。癌症生物标志物识别研究领域已有多种算法被提出,通过对该领域相关算法的深入研究和系统分析,我们发现该领域的计算识别方法按照研究对象的不同可以划分为三类:第一类,以单一标志物作为研究对象,如基因差异表达分析;第二类,以功能模块为研究对象,如对基因表达数据进行聚类分析;第三类,以生物网络为研究对象,如通过网络邻接关系结合已有的生物标志物识别出新的标志物。这些方法虽然取得了一定的识别精度,但是仍然面临诸多挑战,主要表现在:第一,基因、microRNA等多以功能模块发挥作用。以单一标志物为研究对象的算法没有考虑它们在功能模块中的重要性,而以功能模块为研究对象的方法很少考虑功能模块的动态变化。第二,多数方法对基因和microRNA等转录组数据独立分析,难以识别标志物间的调控变化,尤其是microRNA和基因间的调控作用关系。已有研究表明两者间调控关系的变化与癌症发生有关。第三,基于单一组学数据,识别效率和精度较低,难以满足面向全基因组和跨多种癌症大规模数据分析的需求。此外,多数算法还缺乏对识别结果进行基于样本生存曲线的判别分析。针对这些挑战,本文开展如下研究:第一,提出了一种新的基因关联网络构建算法(Linear and Probabilistic Relations Prediction,LPRP算法)。基于该算法和相关组学数据分别构建了乳腺癌和正常样本的基因关联网络。并从基因、功能模块和网络连接变化的角度系统对比两网络间的异同,为本文基于基因、功能模块和调控关系变化的癌症标志物识别算法研究奠定研究基础。第二,提出了基于差异模块识别癌症标志物基因新算法(Module and Gene Ontology-based Gene Prioritization,MGOGP算法)。基因以功能模块为单位发挥作用(基因→功能模块→网络),关键致癌基因会形成显著变化的功能模块(简称:差异模块)。该算法综合考虑基因及其所属差异模块的重要性,并把基因和已知的癌症标志物基因在基因本体注释(Gene Ontology,GO)上的模糊度量值作为启发式搜索信息。该算法能有效解决当前算法忽略基因在功能模块中的作用以及功能模块动态变化的问题。第三,提出识别编码基因、microRNA和基因--microRNA相互作用关系作为癌症生物标志物的新算法(rectified factor network for cancer-related coding Gene,MicroRNA and their Interactions detection,rfnGMI 算法)。该算法引入高效双聚类方法识别癌症特异性功能模块,并对模块中的编码基因和microRNA的差异表达和差异相关(Differential correlation)值进行度量。利用蛋白质相互作用网络和已知的癌症标志物对模块中的基因、microRNA进行优先级排序,结合模块的重要性使用融合排序策略得到对所有标志物的全局排序。该算法不仅考虑模块动态变化,还弥补了当前研究对microRNA和基因间调控关系变化考虑不足的问题。第四,设计并实现了一种新的基于改进整流因子网络模型的标志物识别算法(BIclustering based Survival related Gene sets detection,BISG 算法)。该算法整合分析转录组和基因组数据,采取多次迭代和随机抽样策略,并对统计显著的双聚类模块基因使用对数秩检验分析其与患者生存状况的关系。结果表明,算法识别的标志物基因集可以显著区分患者生存状况。该算法有效解决了由于基因组合爆炸所带来的搜索空间指数增长的问题。通过系统分析十二种不同的癌症数据集发现与癌症患者存活时间相关的标志物基因主要来自五个基因家族:microRNA蛋白编码宿主基因(microRNA protein coding host genes),锌指 C2H2 型(zinc fingers C2H2-type),溶质载体(solute carriers),分化簇分子(cluster of differentiation molecules)和 ankyrin 重复结构域包含基因家族(ankyrin repeat domain containing)。此外,我们发现这些基因主要与血红素代谢,凋亡,缺氧和炎症反应相关。所有这些结果都与现有研究结果一致,进一步验证了该算法的有效性。