论文部分内容阅读
基于基因表达谱,在分子水平上对肿瘤进行分析和研究,是当前生物信息学研究的重要课题。本文针对肿瘤鉴别问题,以小圆蓝细胞瘤(SRBCT)为研究对象,从系统科学和信息科学的角度,采用人工智能和计算机技术,就小圆蓝细胞瘤的特征基因选取问题和亚型识别问题,基于基因表达数据进行了研究,取得如下研究成果: 第一,针对SRBCT 分类信息的度量指标的研究本文提出了用于SRBCT 特征基因选取的类加权Bhattacharyya 距离指标。在修正信噪比指标的基础上,以体现贝叶斯分类错误率的Bhattacharyya 距离衡量基因包含的分类信息。考虑到SRBCT 具有四个亚型,以各类样本占总样本的比例为加权系数,对四个类别的Bhattacharyya 距离加权求和,以此作为基因排序和选择的标准。用两种指标选取基因在不同分类模型上进行亚型识别实验,结果表明,用本文提出的指标选取的基因包含更多的分类信息。第二,针对SRBCT 亚型预测模型的研究本文建立了三种亚型预测模型,首次将多类支持向量机(MSVM)应用到SRBCT亚型识别问题上。分别建立了三层BP 网络模型,基于BSVM 的多模模型和MSVM模型。通过比较不同特征基因集合在三种模型上的分类准确率,确定了一个25个基因的特征集合,基于这个集合利用MSVM 可取得100%的预测准确率。对这三种模型分类性能的对比研究的结果表明,MSVM 优于其它两种方法,是解决SRBCT亚型识别问题的有效工具。第三,针对SRBCT 特征基因集合中冗余基因排除方法的研究本文提出了一种基于Pearson 相关系数的“两两冗余”排除法。该方法考虑到某些基因之间存在着相关性,去掉SRBCT 特征基因集合中分类信息指标较大基因的相关基因,得到15 个特征基因。基于这15 个特征基因本文构建了一个4 聚类SOM 聚类模型,对所有SRBCT 样本进行聚类,聚类正确率达到100%。与文献[5]报道的结果比较,Khan 采用主元分析法和人工神经网络建立的预测模型需要96 个基因,而本文基于MSVM 的预测模型只需15 个特征基因就可取得100%的预测准确率,表明了本文方法的有效性。本文的研究得到了国家自然科学基金的支持,已发表相关论文4 篇, 1 篇发表在《计算机应用》上,2 篇发表在《计算机工程与应用》上,1 篇发表在《Proceedings of the Third International Conference on Machine Learning and Cybernetics, 2004》(EI 收录)。本文的研究有助于肿瘤与基因关系的理解,有助于肿瘤特征