论文部分内容阅读
癌症作为一种重病轻症的疾病,治愈的关键在于如何有效而又准确地及早发现和充分治疗。其中最大的挑战是肿瘤的诊断和精确分型,以区分形态上相似的肿瘤分子亚型,寻找针对病理发生学上一致的肿瘤特异性靶向疗法。基因芯片技术能够快速并行处理大量基因表达,实现多通道、高通量、自动化的数据处理,已被广泛应用于疾病诊断、临床检验等方面。应用基因芯片技术对肿瘤进行诊断和分类,可以在基因表达水平上精确区分肿瘤的分子类型,以更好地预测肿瘤疗效,亦对肿瘤的发生发展机理探讨、肿瘤的早期诊断和分子分型等方面均有重要意义。常规的基因表达数据分类方法将全部样本或者基因作为特征空间。但考虑到在部分样本中发生的某个生物学过程仅涉及到芯片上部分基因,本文采用双向聚类思想,利用与该生物学过程相关的基因簇对样本进行分割,具体内容包括:介绍癌症亚型区分的意义和研究现状,着重介绍急性白血病和弥漫性大B细胞淋巴癌两类癌症的亚型。分析基因芯片的相关知识及其在癌症分型方向上的应用。研究基因表达数据的图像处理和数据分析方法,重点研究聚类分析的常规方法。深入探讨双向聚类方法并对其种类,算法和存在的问题进行分析,在此基础上改进并设计一种基于系统树图的耦合双向聚类算法。在MATLAB6.5的平台上,实现此基因表达数据的双向聚类算法。利用急性白血病和弥漫性大B细胞淋巴癌的基因表达谱数据实验和检验这种聚类算法。实验结果表明,基于系统树图的双向聚类算法能有效地找到特征基因簇。利用这些基因簇分割样本,可以得到与同类算法相比较高的癌症亚型识别率,并有助于发现关键基因和表达模式。