论文部分内容阅读
随着高通量测序技术的发展,生物学数据急剧积累,挖掘生物数据中蕴含的信息成为科学研究的热点之一。主要包括核酸、蛋白质、DNA以及基因等分子序列的结构和功能的研究。其中,分子进化与系统发育分析是其中一个重要的内容,如通过对生物分子差异分析探索物种间的进化关系以及物种内分子间的变异与进化。此外,基于基因表达数据的差异表达分析发现复杂疾病的基因标志物为理解癌症的发生的机制,以及癌症等复杂疾病的临床预后和治疗方案制定提供帮助。通过对蛋白质序列和基因表达数据类型的研究,本文探索了流感病毒和肝癌两种生物数据在疾病中差异性表达蕴含信息对疾病致病机理、发展、诊断、防控以及治疗等方面的影响和作用。文章的主要工作概括如下:1)利用氨基酸理化特性对流感病毒的HA蛋白质序列进行40维特征提取,采用层次聚类方法分析蛋白质序列的差异性,并引入最优层次评价指标计算出每一年的最优聚类数。利用每一年的种群熵值刻画流感病毒的生物多样性,进一步,通过变异进化分布图和种群熵变化率对流感病毒的变异进行深入分析。结果表明,种群熵值能很好地反应流感病毒的生物多样性,种群熵变化率也能很好地反应流感病毒的变异速率,这些研究可为流感的预测提供依据和支撑。2)基于肿瘤基因组图谱数据库中所获取的基因表达数据进行了差异分析以区分差异表达基因。其次,采用加权相关性算法以构建差异表达基因的共表达模块,并计算共表达模块与肝癌临床病理分期的相关系数。再选取与病理分期强相关性的模块中基因构建模块基因交互网络。选取与病理T、N、M期相关性最高的模块基因在DAVID数据库中实施富集分析和通路分析,最后,用Cytoscape软件对分子互作网络进行注释、可视化。结果表明,该模块中异常表达的基因在细胞分裂、姐妹染色单体聚合、DNA修复、有丝分裂细胞周期G1/S转化等生物学过程中发挥重要作用。与此同时,这些基因也在细胞周期、卵母细胞减数分裂和p53信号通路中富集。通过研究交互网络的近距离中心性及研究性文献结论发现CKAP2、TPX2、CDCA8、KIFC1、MELK、SGO1、RACGAP1、KIAA1524等8个基因生物标志物,其生物机制证实与肝癌相关。因此8个基因的异常表达可以作为肝癌病理分期诊断的标志物。3)在2)工作的基础上结合肝癌四个临床病理分期的基因表达数据,采用差异分析方法区分不同分期的差异表达基因。再选择Logistic回归寻找对肝癌致病具有统计学显著影响的基因,在ⅰ、ⅱ、ⅲ、ⅳ病理分期的实验中,分别得到192、149、224、112个显著差异表达的基因。进一步,采用分子互作网络分析确定肝癌不同病理分期的基因生物标志物。最后,采用生存分析和文献研究结果验证。其中,MELK,KIFC1,CDCA8,RACGAP1等4个基因生物标志物与2)结果吻合。此外,也发现HJURP,TROAP,NDC80,KIF4A及COLEC10等新的基因生物标志物。结果显示,MELK、HJURP、CDCA8基因可以作为第ⅰ分期的生物标志物,TROAP,NDC80基因可以作为第ⅱ分期的生物标志物,KIF4A基因可以作为第ⅲ分期的生物标志物,RACGAP1基因可以作为第ⅳ分期的生物标志物。