论文部分内容阅读
无论是在生物学特征、组织特征还是临床症状来讲,癌症都是一种异质性疾病,研究癌症遗传异质性有助于制定更合理的癌症预防措施和发现新的诊断方法。阵列技术和高通量测序使研究基因和基因组变异成为可能,这有助于评估癌症风险和对治疗反应。这些新的高通量检测工具的出现可以产生大规模癌症相关数据,使癌症研究进入大数据时代,而分析这些数据需要使用特殊的统计工具和数学手段。生物信息学降低了庞大数据的复杂性,也使临床相关问题得到解决。据预计,生物信息学、数学肿瘤学在基因组检测与临床实际实践的转化过程中作用越来越显著。本研究首先系统介绍癌症异质性特征及生物信息学在癌症研究中的应用,并举例探讨生物信息手段在癌症预防及个体化诊治方面的重要作用,阐述其如何塑造现代肿瘤学。本研究分为两个部分: 第一部分研究将结合生物信息学、数理统计学、遗传学等学科的相关理论知识,依据已经研究发现的与乳腺癌、结肠癌、胃癌、肝癌、肺癌及前列腺癌六种癌症相关的易感基因在三个种族间(欧洲人群、亚洲人群和非洲人群)中进行调查分析,检索1212篇文献,最终纳入68篇文献96个SNPs,利用数学统计学与生物信息学手段进行分析。异质性结果发现25%的SNPs在不同的种族间具有明显异质性,我们通过LD分析发现而这一现象主要依赖标签SNPs与真实致癌基因和周围遗传物质的连锁作用方式不同所造成;并以乳腺癌rs1137101和结肠癌rs6983267为例,通过待研究SNPs在不同种族间与相关癌症致病基因连锁程度差异,在非显著相关种族中预测了新的候选标签基因rs3828034(乳腺癌);rs7014346和rs7837328(结肠癌)。非小细胞肺癌在组织类型上具有明显的不同,并且不同亚型治疗方案各异,例如阿瓦斯汀治疗肺腺癌可以取得明显的疗效,但在鳞癌治疗时会产生致死的出血风险,因此对亚型准确诊断至关重要。传统诊断方法多依赖于癌症组织形态学变化,这很大程度受病变大小和取材限制,开发新型诊断方法显得尤为迫切。 第二部分研究运用生物信息工具依据肺癌高通量差异表达基因谱构建快速有效的基因诊断模型。首先在GEO数据库中挑选人类肺腺癌和鳞癌基因表达芯片GSE10245,应用R软件筛选肺腺癌和鳞癌差异表达基因,并进一步利用PAM分析方法,挑选出可将腺癌和鳞癌明显区分开的13个差异表达基因,错误区分率接近0。为排除建立模型过程中出现过度拟合现象并确定建立模型需要基因的最小数目,我们进行了AIC分析,结果提示4~5个基因可将腺癌和鳞癌区分开。利用R软件最终从13个基因挑选出7构建模型,并利用 Logistic回归建立了模型,Score=15+ AGR2*(-1.374)+CEACAM6*(-0.8998)+NTRK2*(1.518)+PRR15L*(-1.072)+SOX2*(1.039)+TMC*(-1.674)+UGT1A8*(2.729);为进一步验证模型,我们从GEO数据库挑选出两个肺癌芯片GSE4573和GSE10072,利用R软件挑选出模型中所涵盖的7个基因的表达量并带入模型进行重新诊断,结果显示99%的样本基因模型诊断结果与病理诊断结果一致,通过基因芯片数据初步验证了模型的可行性。