论文部分内容阅读
癌症是世界上最为严重的公共问题之一,中国癌症发病率逐渐上升,但根据目前国内的水平,三分之一的癌症是可以预防的,有效提高癌症的早期诊断率已经被公认为是改善其疗效的关键。蛋白质组学及相关技术的发展给癌症病理的研究及预防等带来了新的希望。研究表明在癌症发病早期,病人体征没有任何异常的情况下,蛋白质芯片采集的数据及绘制的质谱图可较为直观的显示患者与健康人在蛋白表达水平上的差异。但若要对未知标签的样本进行可靠的预测还需生物信息学的协助。根据样本质谱提出新的诊断技术来提高癌症预诊断的准确率和可靠性成为了蛋白质组学研究的热点问题之一。机器学习理论的发展推动了预诊断技术的进步。但质谱数据具有高维和小样本的特点,上万的维特征让一些分类器不知所措,仅有几十个或上百个的样本亦对分类器训练结果提出质疑。目前,进行特征提取及分类包括有监督学习和无监督学习两大类。有监督学习是对有概念标记的训练集进行学习,对之外的数据分类。无监督学习是对无概念标记的训练集进行学习,所有标记均未知。实际应用中,已标样本较难获取,同时浪费了大量未标记样本,而无监督学习则浪费了已标记样本,因此出现了同时利用两种样本的半监督学习。在癌症诊断方面,较为容易获得大量未标记样本,而对未标记的样本进行标记则需付出很高的代价。半监督学习所需的标记样本较少,同时还能利用未标记样本以辅助提高分类的准确率和可靠性,因此非常适合于癌症的分类问题。在半监督学习机制中,基于图的半监督学习受到研究者的青睐,其中局部全局一致性学习算法是基于图的半监督学习算法中的一种,该算法充分利用了未标样本和已标样本,但其分类性能较依赖内在参数,进行质谱数据分析会带来诸多不便。为此,采用了简洁局部全局一致性学习方法避免了参数对分类性能的干扰。但该算法面对维灾问题依然失效,分类性能低下。因此针对蛋白质质谱数据存在高噪声、高冗余性的特点及维灾问题,本文提出了一种基于半监督学习的多步降维特征提取算法与基于稀疏表示和半监督学习的蛋白质质谱数据分类算法。基于半监督学习的多步降维特征提取算法,首先通过逐步降维去除冗余信息,逐步筛选出相关性低但判别性高的特征,最后用于简洁局部全局一致性学习的半监督学习算法中。主要思路是首先对原始数据进行降噪及提高信噪比等预处理,即去除大部分的高频或低频噪声,并且使蛋白质质谱数据之间的对比性增强。然后利用T检验进行降维,初步筛选高维度的特征,初步筛选后的数据特征保留了冗余度较高和相关性较大的特征。其次对T检验之后的数据特征进行离散小波变换(DWT)以及相对熵排序,进一步筛选出噪声低、冗余度低的特征。之后再进行主成分分析,进一步降维,同时也去除了特征间的相关性,保留了一小部分与样本类别相关性大的非相关数据特征。最后,利用简洁局部全局一致性学习算法对逐步降维去噪后的数据特征进行分类。利用该方法在三个样本数据集(分别为卵巢癌样本集OC-WCX2b、前列腺癌样本集PC-H4及浙江省肿瘤医院临床乳腺癌样本集BC-WCX2a)上进行测试,结果显示该方法分类效果较好(分别为99.13%、96.81%、92.78%),敏感性较高(分别为99.01%、96.81%、100%)。同时设计了多组对比试验,包括T检验的有无、DWT和相对熵排序的有无、主成分分析的有无和多步降维方法的有无对比试验,结果各步方法都能明显提高简洁局部全局一致性学习算法的分类性能。另外,对三个数据集采用PCA算法及KPCA算法进行降维,采用基于高斯核函数的SVM算法及LDA算法进行分类,与本文所提算法进行比较。结果在数据集OC-WCX2b上的分类率差别不显著,在数据集PC-H4及BC-WCX2a上分类率显著不同,本文所提算法结果分类率较高,且综合水平更高。为进一步检验算法分类性能,本文还设计了不同分类器间分类性能对比实验。降维算法均为本文所提方法,分类方法分别为朴素贝叶斯算法、SVM算法、kNN算法。结果在数据集BC-WCX2a上本文所提算法的分类率最高且最稳定。检验实验结果表明采用多步降维方法进行特征提取的方法是有效的,再利用半监督学习进行分类,分类效果较好。基于稀疏表示和半监督学习的蛋白质质谱数据分类方法首先进行核主成分分析,解决维数灾难问题,然后构造稀疏邻接图,再运用于基于图的半监督学习的简洁局部全局一致性学习算法中。主要思路是首先利用核主成分分析对蛋白质质谱数据进行主成分提取,使质谱特征的维数小于样本数,以解决维灾问题;然后求解样本稀疏表示向量,构造稀疏邻接图,本实验是通过求解L1范式的优化问题来获取所有样本的稀疏表示向量的,把稀疏向量作为样本间边权值从而得到稀疏邻接图;最后运用基于图的半监督学习的简洁局部全局一致性学习算法进行标签传递,对有标记和无标记样本进行预测判别。利用该方法在同上三个数据集上进行测试,结果显示该方法分类效果较好(分别为99.66%、97.35%、92.02%),敏感性较高(分别为99.97%、97.61%、98.05%)。另外对多个经典降维分类算法在三个数据集上进行了测试。降维方法采用PCA及KPCA算法,分类方法采用基于高斯核函数的SVM算法及LDA算法,与本文所提算法比较。结果在数据集OC-WCX2b及BC-WCX2a上结果无显著差距。在数据集PC-H4上,本文所提算法是这几类算法中效果最好的。为进一步检验所提算法分类性能,设计了不同分类器间分类性能对比实验。降维算法均为基于PolyPlus核的KPCA算法,然后利用SVM、LDA及SRC进行分类。结果表明本文所提算法分类性能普遍较高,且稳定性较好。同时,探讨了分类性能与已标样本数量的关系,结果表明总体趋势为分类率随已标样本数量的增加而升高,达到某个阈值时会趋于稳定。总之,基于稀疏表示的半监督学习方法具有较好的分类性能,分类效果更理想。