论文部分内容阅读
肿瘤是多基因参与,基因与环境相互作用的的结果。传统的单基因分析疾病的方法已不能满足肿瘤研究的需求。如何将高通量生物技术所产生的巨量数据同基因组时代积累的基因、蛋白的信息,通过生物信息学方法,有机地结合起来,理解肿瘤发生、发展的病理机制,开发有效治疗方案,是当前国内外研究的热点之一。本文重点在于脑胶质瘤的生物信息学研究,基于公共大规模基因芯片数据和目前可用的人类基因组和蛋白组的信息,首先评估分类肿瘤的生物信息学方法,然后应用基于基因共表达网络的方法探索高级别脑胶质瘤之间的分子机制的共性与特异性,最后提出了集成多种信息的新的生物信息学方法筛选能分类具有不同生存期的脑胶质瘤病人的标志基因,为寻求脑胶质瘤诊断与治疗新方案提供线索。
在生物信息学领域,高通量的基因芯片技术与各种生物信息学方法结合,对肿瘤研究有着重要的意义。本文首先系统测评了肿瘤基因芯片数据常用的特征提取方法和分类算法。在原始的训练集和测试集以及随机化训练集和测试集上,对二十种分类器进行实验,得出统计结果;发现所评测的特征提取方法与k最近邻法组成的分类器,分类性能差别不大;主成分分析法加Fisher线性判别法分类效果最好。分类方法的评测结果能为肿瘤的早期诊断与分类,以及为实际选择分类器分类肿瘤提供参考。
对于肿瘤的研究来说,分类不是最终目的,只有进一步理解多基因如何共同协作促使肿瘤发生发展的分子机制,才能更好地指导肿瘤治疗以及新的药物的开发。本文接下来的研究就集中在人群中发病率较高的肿瘤之一,脑胶质瘤。首先通过精确重建细胞网路算法成功地从高级别脑胶质瘤全基因组基因芯片数据中重建出基因共表达网络,进而研究高级别脑胶质瘤之间的病理特性与基因共表达网络属性;然后使用加权基因共表达网络分析法探索大规模基因在不同肿瘤级别下组织共表达模块的特点;接着,本文考察了枢纽基因和脑胶质瘤疾病基因之间的关系。通过从不同粒度、不同层面,分析比较高级别脑胶质瘤之间的特性,我们从系统层次上初步认识了大规模基因共表达变化对疾病恶性程度的影响,一定程度上理解了基因模块化机制与疾病表型之间的关系。
理解脑胶质瘤分子机制的目的是为了能够为开发新的治疗方案,延长病人生存期,以至治愈疾病服务。本文接着提出了能将基因集合、蛋白交互网络等先验知识集成起来的系统生物学方法,从脑胶质瘤基因芯片数据中,搜寻能预测脑胶质瘤病人生存期的标志基因,并与只包括蛋白交互网络的系统生物学方法和传统的寻找差异基因的方法相比较。通过在二十套横跨五种肿瘤的基因芯片数据上验证其预测能力,我们发现集成基因集合、蛋白交互网络的系统生物学方法所发现的标志基因,其预测能力优于只包含蛋白交互网络的系统生物学方法和常用的找差异基因的方法所找到的基因以及以前文献报道的脑胶质瘤病人生存期相关基因,可以作为独立于病人年龄和肿瘤级别的新指标。我们发现的标志基因主要参与细胞增生和免疫响应相关的生物过程,可能在预测实体瘤病人生存期方面是通用的标志基因,可能是潜在的临床靶向治疗方案的新目标基因。