论文部分内容阅读
关于癌症问题的研究是目前世界各国都很关注的问题。众所周知,产生癌变的因素很多,包括基因突变,抑癌基因的功能丧失,原癌基因的激活,以及其它与癌症相关的因素。抑癌基因功能丧失和原癌基因激活都有可能导致癌症的形成,许多抑癌基因很早就被确定,但目前被确定的致癌基因却很少,所以发现更多的癌基因对癌症的治疗具有重要意义。早期的微生物基因组研究局限于简单的靶基因与功能相联系。随着生物信息学的发展,基因芯片分析成为癌基因确定的一个重要手段。基因表达谱代表了每个基因的即时表达数据,从这些数据中挖掘有用的信息,发现与癌症有关的基因,是当前生物信息学研究的热门问题。本文以结肠癌数据为研究对象,分别建立了T-统计,信噪比和动态聚类等分类模型,并对分类结果进行了比较。本文的内容如下:第一章介绍生物信息学产生的背景、概念、发展过程、研究的内容以及本文的研究工作。第二章介绍肿瘤分类问题中的特征基因选取的方法和机器学习方法。第三章基于结肠癌基因表达谱数据集,本文分别建立了三种聚类模型。对比分类结果,发现动态聚类的分类效果好,预测的精度平均达到90.62%。聚类的结果有助于结肠癌的诊断和治疗。