论文部分内容阅读
目的:DNA微阵列技术通过同步追踪大量基因的表达水平而得到基因表达谱数据,广泛应用于生物医学各个领域。基因表达数据的一个重要研究方向就是肿瘤等重大遗传性疾病的病理诊断与分类研究。肿瘤作为一种由特定基因序列和表达变异引起的疾病,其表达谱的出现为肿瘤学提供了一种全新的临床研究手段。因此,本文对肿瘤基因表达数据进行挖掘研究,可以为肿瘤的早期诊断和临床治疗提供重要依据。方法:肿瘤基因表达谱具有样本小、维度高、噪声大、冗余多和非线性等特点,给现有的分析处理工作带来了一定的挑战。机器学习算法中支持向量机(support vector machine,SVM)处理高维非线性数据有独特的优势。智能优化算法一般不要求目标函数和约束的连续性与凸性,能很好的适应数据中的不确定性。因此,本文采用机器学习和智能优化相关算法分析挖掘肿瘤基因表达数据。主要内容包括:(1)基于基因表达数据中存在的大量无关基因和冗余基因,提出信息增益(information gain,IG)结合SVM的两阶段混合方法选择信息基因。该方法采用IG去除肿瘤样本中的大量无关基因,再利用SVM进一步约减数据中的冗余基因;(2)研究了粒子群优化算法(particle swarm optimization,PSO)、人工蜂群算法(artificial bee colony,ABC)等智能优化方法,详细分析了它们在处理高维非线性问题时的优势;(3)提出PSO结合ABC算法优化SVM的分类方法。该方法将PSO算法的寻优结果作为ABC算法的初始值,可以更有效的搜索到SVM相关参数最优值。结果:将改进的算法应用到多组肿瘤样本数据中,结果表明信息增益IG结合SVM筛选信息基因的方法能够获得数目较少且质量较高的基因子集,并对获得的基因进行分析,发现这些基因对相应肿瘤的研究有重要临床意义,其中包括已经证实的以及尚未被发现的基因。另外,对于结合PSO和ABC智能优化方法优化SVM的分类模型,在多组肿瘤数据上的结果显示,和其他优化方法相比,该混合方法的鲁棒性较好且分类精度更高。结论:论文提出的方法能够获得高质量的信息基因子集,并且采用构建的分类模型对肿瘤样本进行分类可以获得更优的分类结果,验证了机器学习和智能优化算法处理肿瘤样本数据时的有效性,对肿瘤的早期诊断和临床治疗方案制定具有一定的潜在价值。