论文部分内容阅读
癌症是全球一个主要死亡原因,在2012年造成820万人死亡。导致发生癌症的因素种类繁多而且数据量巨大,本文基于导致患癌的外因素和基因设计分析系统,以提高癌症研究中的分析效率。本文所做的工作包括以下三个方面:首先,基于导致癌症的外因素设计分析系统。将外因素的分析过程分别特征提取和分类预测进行系统设计。该系统利用Cox比例风险回归模型从诸多癌症患者的描述属性中提取最相关的特征组成特征集,然后利用最小二乘法支持向量机预测具有某类特征的癌症患者经过一段时间后癌症可能恶化导致死亡或者恶化程度仍然可控。实验结果表明,该系统能准确地预测癌症经过一段时间的发展后所导致的结果。其次,本文基于系统发育树设计了癌症复发模式分析系统。该系统利用高通量测序获取癌症样本的原始数据,然后对数据进行预处理及格式转换,最后生成系统发育树。分析结果表明,肿瘤内部转移起源和多中心起源两种肿瘤复发模式在病人中间同时存在,并且这一结果与临床病理分析结果完全一致,证明了分子进化分析方法在肿瘤的基因组学研究中有着广阔的应用前景。最后,本文基于系统发育树的改进模型——最大伪似然估计物种树模型设计系统对其进行大规模基因数据验证。分析结果表明,最大伪似然估计物种树模型在大规模基因数据的情况下,基因树的结构仍然稳定,部分节点统计支持率明显提高,扩展了系统发育树在癌症基因组学研究中的适用性。