论文部分内容阅读
肝癌(Liver Cancer)有多种类型,常见高发类型为原发性肝癌中的肝细胞癌(Hepatocellular Carcinoma,HCC),其发病通常难以察觉,且一旦发病则进展迅速,容易错过最佳诊治时间而造成癌细胞转移或进入局部晚期,因此治疗起来很困难,并且预后效果很差,是威胁人们生命健康的重大癌症。目前其致病机制不明确,普遍认为是由多种致病因素共同作用导致的结果。鉴于肝癌的发病特点,对疑似患者的早期诊断十分重要,目前我国的肝癌诊断主要是依据影像学检查与血清分子标志物甲胎蛋白检测,但这两种方法都存在一些缺陷。近年来也有一些处于研究阶段的潜在HCC生物标志物,但大都存在特异性低、敏感性低的缺点,未达到理想的检测效果。因此,寻找新的高敏高特异生物标志物来辅助HCC相关临床诊断与检查具有重大的社会价值和经济效益,已是刻不容缓。癌症因其致病因素多且复杂,被认为是由多生物分子,以及遗传因素与环境因素等相互作用而造成的“系统病”,这意味着基于复杂系统与复杂网络的背景筛选生物标志物的正确性。因此本文将基因表达数据结合基因间相互作用(Gene-Gene Interaction,GGI)网络,通过研究在疾病在发病过程中,基因等生物分子在相互作用网络中拓扑位置的显著性变化来筛选生物标志物,并对筛选出的候选标志物在多个层次上进行了验证。除此之外,还将本文方法与基于不同网络组分筛选生物标志物的方法进行了对比研究,给出了对今后生物标志物研究方向的展望。全文主要研究内容如下:(1)构建了一种筛选生物标志物的新模型,主要利用基因表达数据和人类背景基因间相互作用网络,构建疾病与正常两个状态下特异的基因间相互作用网络,对网络拓扑参数进行整理与聚类,去掉功能重复的参数并选择本文适用的网络拓扑参数。然后基于基因等生物分子在两个基因间相互作用网络中所处拓扑位置的差异,挑选出网络拓扑参数差异变化显著的基因,对这些基因构成的网络进行聚类,选择在机器学习模型中分类效果最好的模块,将该模块包含的33个基因作为候选生物标志物,称之为TopMarker。最后对候选生物标志物进行功能富集分析,以及其它层次上的有效性验证,结果表明筛选出的33个TopMarker具有很好的分类能力,并且与肝癌致病过程存在密切的关系。(2)为进一步说明本文方法的合理性与优越性,在网络组分的层次上进行了不同方法的对比研究。列举出网络研究中常见的网络组分,如节点、边、派系、通路,分别基于这些不同的网络组分进行生物标志物的筛选,将所有方法筛选的结果与本文方法的筛选结果进行对比分析,进一步证明了本文方法的正确性与结果的可信性。