论文部分内容阅读
肿瘤是人类面临的一大灾难,任何有关肿瘤的检测、诊断和治疗的研究,毫无疑问都具有重要的意义。不同肿瘤亚型具有不同的特征,从基因水平上观测,它们分别由单种或多种基因表达及其相互作用所控制,具有不同的基因表达特征,但它们往往难于用临床特征进行区分。基因芯片技术的出现,为科学家在分子水平上研究肿瘤现象提供了一个强有力的工具,比如可以用来研究正常组织与肿瘤组织的区别。基于基因表达数据的肿瘤亚型多类别分类与分析,正是试图从基因水平上对不同的肿瘤或亚型进行分类和分型。由于基因芯片表达数据具有高维、高噪音、高相关性等特点,使得基于基因芯片表达数据的模式分类问题仍然面临许多困难。例如,检测基因的数目相对于样本的数目非常大,其中大量与疾病组织样本无关的基因的表达不仅降低分类器的性能,还会增加机器学习的时间和空间复杂度。本文围绕着这些问题,充分利用已有的基因表达数据,从基因水平上研究对肿瘤多类别进行分类的方法,主要开展了以下两方面有新意的研究工作:1.特征基因选择方法的研究用特征选择的方法对基因进行筛选来剔除无关基因,减少基因指标的个数,不仅可以提高分类器的性能,而且还为寻找对疾病有鉴别力的特征基因排除了大量无关基因的干扰,因此选择出来的特征基因可以更有效地用来对疾病进行诊断。一个较优的算法选择出的特征基因子集,不仅应该对疾病类别有较强的鉴别力,还应该对不同的分类器算法具有较强的鲁棒性。从这个原则出发,本文提出了一种基于标准差分布差异(Standard Deviation Error Distribution,SDED)的特征基因选择算法。该算法基于一个直观的假设:即特征基因表达水平在不同类间和相同类内具有不同的概率分布,类间标准差相对较大,而类内标准差则尽可能小。结合基因在类内和类间表达标准差分布差异情况,即可对基因进行打分,从而选择出具有生物学意义及有利于分类判别的特征基因。通过对比GS2和CHO算法对4个不同白血病基因表达数据集进行的实验分类结果,表明SDED算法能选择出有利于分类预测结果的特征基因,预测精度分别比GS2和CHO算法高出0.8-4.2%和1.6-8.4%。同时通过统计所选特征基因在OMIM和KEGG两大数据库中的注释情况,说明SDED算法可以选择出的具有重要生物学意义的肿瘤相关特征基因的数量,要比这两种算法高出4.0%和6.1%左右。2.肿瘤亚型多类别分类方法研究利用支持向量机、人工神经网络和决策树等模式分类方法对基因表达数据进行疾病及疾病亚型的识别已取得了一定的成果。对于双类别的研究已取得很好的进展,但在多类别分类问题上,存在预测精度不高,实验效率不够理想,所选特征基因生物学意义不明显等问题。针对多类别分类问题,主要有两种策略:一种是将多类别问题分解为双类别,该类型算法的主要弊端是随着类别数的增加,分类器的数目指数增长,计算量也因此大大增加。第二种类型的分类器则可以自然的扩展到多类别分类问题,如判别式方法。判别式是基于数据标准正态分布的假设,其数学计算并不复杂,但主要针对线性关系的问题。针对判别式方法的局限性以及基因表达数据噪声强,波动大,在大量数据的背后还有很多相关变量不能被直接观测到等特点,本文提出了一种基于简单高斯混合模型(Simple Gaussian Mixture Model,SGMM)的多类别判别方法,该方法结合了判别式算法以及高斯混合模型的优点,从而保留了更多有利多类别分类的信息。通过用4个不同的白血病基因表达数据集进行测试,并用留一法交叉验证得到的分类结果表明.利用简单高斯混合模型的分类器,能够取得比最近邻算法高2%左右的预测精度,同时与支持向量机的分类效果相当,但其计算复杂度和运算量却远低于支持向量机。