论文部分内容阅读
肿瘤是影响人类健康的主要疾病之一。基因微阵列和蛋白质质谱等技术的出现为人类疾病的诊断和防治开辟了新的途径。基于基因微阵列和蛋白质质谱等数据的肿瘤研究己成为生物信息学研究的热点,但由于其数据具有高维小样本等特点,常规模式识别方法已不再适用。目前已有一些研究取得了较好的模式分类率,但缺乏对临床生物学意义的关注。可以肯定的是利用越多的临床信息或生物先验知识能够更好的提高分类率,加强结果的生物相关性。在本研究中,基于卵巢癌磷脂代谢物数据和四个公共基因微阵列数据,不仅利用集成的模式识别方法,同时还根据样本临床诊断结果,辨识并选择与诊断相关的特征标志物。目前基于生物表达数据的特征识别方法主要有过滤法和缠绕法两大类方法。过滤法完全独立于分类器,分类精度不能得到保障,且过滤原则与类别信息无关;缠绕法与分类器相结合,能获得较高的分类精度,但不能保证结果与疾病有较强的相关性;另外,表达数据的高维、高噪声的特点更加增加了过拟合的风险。针对以上问题,本研究采取将过滤法和缠绕法相结合的策略,克服了单一使用缠绕法或过滤法的缺点,并避免过拟合现象的产生,保证较高分类率的同时不依赖于具体分类器,另一方面引入临床诊断结果使选择的生物标志物具有较强的肿瘤类别相关性。具体方法上:1)使用临床诊断结果相关的有监督奇异值分解,引入样本散点图和科尔莫诺夫-斯米尔诺夫检验,以辨识出含有样本类别信息的特征向量,克服传统奇异值分解按方差“贡献率”来提取特征向量的缺点,避免“丢弃”贡献率低但包含重要生物信息的特征向量。2)提出了基于相对重要性的随机森林决策理论,按照特征的相对重要性指标来选择关键特征,使用Gini指数和信息熵结合样本分类率来计算特征的相对重要性。在具体实验上,本研究选用卵巢癌磷脂代谢物数据和四个公共基因微阵列数据进行分析和数值实验,在自身陈述结果的基础上,与其他经典方法从分类性能和特征生物学关联意义等方面进行对比。实验结果表明:1)与经典方法和其他相关已发表算法相比,本方法在多个数据集上所选取的特征子集不仅具有较强的分类性能,而且对不同的分类算法有较好的适应性和稳定性,并不依赖于某个分类器; 2)通过文献检索和基因数据库查找显示,本研究所选取的特征磷脂代谢标志物和肿瘤特征基因具有较强的生物学关联意义,很多与相关的肿瘤疾病有关。综上,本方法能较好的选取出与疾病关联的特征标志物。