论文部分内容阅读
蛋白质组学质谱技术是目前广泛应用的蛋白质研究技术之一,特别是在癌症的早期诊断和生物标记物识别方面。该方法产生的海量质谱数据需进一步分析才能实现对蛋白质的定性和定量研究。因此,以生物信息学方法研究质谱数据已成为关键。通过分析比较病例组和对照组细胞组织中的蛋白质提取物,能够发现在疾病病理中起重要作用的异常生物标记物,从而正确的分类病例组和对照组。肿瘤蛋白质质谱数据具有样本小、维数高、噪音大、非线性等特点,挖掘可信的蛋白质生物标记物对肿瘤早期诊断与揭示发病机理等意义重大。首先,本文从纵向与横向两个方向综合考虑特征(峰度值)在病例组与对照组中的强度值差异,具体地,视数据集为两因素混合水平实验,其中A因素为样本标签(包括病例组与对照组两个水平),B因素为特征(m个特征即m水平),应用非平衡双向方差分析发展了一种新的高维特征选择方法:基于F测验的最高得分特征子集(Top Score Feature Subset based on F test, TSFS-F),并提出一种新的分类方法:基于F值的直接分类(Direct Inference Classifier based of F-test, DIC-F)。其次,为了评价本文方法的有效性,参比了2个特征选择方法SVM-MRMR和SVM-SVMRFE:其中MRMR和SVMRFE仅能获得特征的重要性排序,无法给出具体的特征子集,因此结合SVM对训练集做10-fold交叉测试,以特征重要性排序逐个引入特征,再取交叉测试精度最高对应的前若干个特征为特征子集。2个肿瘤蛋白质质谱数据的10次重复实验结果表明:1)TSFS-F所选最优特征子集特征数少而稳定;2)在KNN、NB、SVM三个分类器上的独立预测精度均优于参比特征选择方法,并有效改善了SVM分类器的过拟合,是一种鲁棒的高维特征选择新方法;3)DIC-F和三个参比分类器比较,分类精度虽稍弱于SVM,但和TSFS-F配合的分类精度均高于其他特征选择方法和分类器的组合。T SFS-F和DIC-F在复杂疾病生物标记选择与分类等高维特征选择领域有广泛应用前景。