基于半监督学习的SELDI-TOF蛋白质质谱数据分析

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:shengweizheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症是世界上最为严重的公共问题之一,中国癌症发病率逐渐上升,但根据目前国内的水平,三分之一的癌症是可以预防的,有效提高癌症的早期诊断率已经被公认为是改善其疗效的关键。蛋白质组学及相关技术的发展给癌症病理的研究及预防等带来了新的希望。研究表明在癌症发病早期,病人体征没有任何异常的情况下,蛋白质芯片采集的数据及绘制的质谱图可较为直观的显示患者与健康人在蛋白表达水平上的差异。但若要对未知标签的样本进行可靠的预测还需生物信息学的协助。根据样本质谱提出新的诊断技术来提高癌症预诊断的准确率和可靠性成为了蛋白质组学研究的热点问题之一。机器学习理论的发展推动了预诊断技术的进步。但质谱数据具有高维和小样本的特点,上万的维特征让一些分类器不知所措,仅有几十个或上百个的样本亦对分类器训练结果提出质疑。目前,进行特征提取及分类包括有监督学习和无监督学习两大类。有监督学习是对有概念标记的训练集进行学习,对之外的数据分类。无监督学习是对无概念标记的训练集进行学习,所有标记均未知。实际应用中,已标样本较难获取,同时浪费了大量未标记样本,而无监督学习则浪费了已标记样本,因此出现了同时利用两种样本的半监督学习。在癌症诊断方面,较为容易获得大量未标记样本,而对未标记的样本进行标记则需付出很高的代价。半监督学习所需的标记样本较少,同时还能利用未标记样本以辅助提高分类的准确率和可靠性,因此非常适合于癌症的分类问题。在半监督学习机制中,基于图的半监督学习受到研究者的青睐,其中局部全局一致性学习算法是基于图的半监督学习算法中的一种,该算法充分利用了未标样本和已标样本,但其分类性能较依赖内在参数,进行质谱数据分析会带来诸多不便。为此,采用了简洁局部全局一致性学习方法避免了参数对分类性能的干扰。但该算法面对维灾问题依然失效,分类性能低下。因此针对蛋白质质谱数据存在高噪声、高冗余性的特点及维灾问题,本文提出了一种基于半监督学习的多步降维特征提取算法与基于稀疏表示和半监督学习的蛋白质质谱数据分类算法。基于半监督学习的多步降维特征提取算法,首先通过逐步降维去除冗余信息,逐步筛选出相关性低但判别性高的特征,最后用于简洁局部全局一致性学习的半监督学习算法中。主要思路是首先对原始数据进行降噪及提高信噪比等预处理,即去除大部分的高频或低频噪声,并且使蛋白质质谱数据之间的对比性增强。然后利用T检验进行降维,初步筛选高维度的特征,初步筛选后的数据特征保留了冗余度较高和相关性较大的特征。其次对T检验之后的数据特征进行离散小波变换(DWT)以及相对熵排序,进一步筛选出噪声低、冗余度低的特征。之后再进行主成分分析,进一步降维,同时也去除了特征间的相关性,保留了一小部分与样本类别相关性大的非相关数据特征。最后,利用简洁局部全局一致性学习算法对逐步降维去噪后的数据特征进行分类。利用该方法在三个样本数据集(分别为卵巢癌样本集OC-WCX2b、前列腺癌样本集PC-H4及浙江省肿瘤医院临床乳腺癌样本集BC-WCX2a)上进行测试,结果显示该方法分类效果较好(分别为99.13%、96.81%、92.78%),敏感性较高(分别为99.01%、96.81%、100%)。同时设计了多组对比试验,包括T检验的有无、DWT和相对熵排序的有无、主成分分析的有无和多步降维方法的有无对比试验,结果各步方法都能明显提高简洁局部全局一致性学习算法的分类性能。另外,对三个数据集采用PCA算法及KPCA算法进行降维,采用基于高斯核函数的SVM算法及LDA算法进行分类,与本文所提算法进行比较。结果在数据集OC-WCX2b上的分类率差别不显著,在数据集PC-H4及BC-WCX2a上分类率显著不同,本文所提算法结果分类率较高,且综合水平更高。为进一步检验算法分类性能,本文还设计了不同分类器间分类性能对比实验。降维算法均为本文所提方法,分类方法分别为朴素贝叶斯算法、SVM算法、kNN算法。结果在数据集BC-WCX2a上本文所提算法的分类率最高且最稳定。检验实验结果表明采用多步降维方法进行特征提取的方法是有效的,再利用半监督学习进行分类,分类效果较好。基于稀疏表示和半监督学习的蛋白质质谱数据分类方法首先进行核主成分分析,解决维数灾难问题,然后构造稀疏邻接图,再运用于基于图的半监督学习的简洁局部全局一致性学习算法中。主要思路是首先利用核主成分分析对蛋白质质谱数据进行主成分提取,使质谱特征的维数小于样本数,以解决维灾问题;然后求解样本稀疏表示向量,构造稀疏邻接图,本实验是通过求解L1范式的优化问题来获取所有样本的稀疏表示向量的,把稀疏向量作为样本间边权值从而得到稀疏邻接图;最后运用基于图的半监督学习的简洁局部全局一致性学习算法进行标签传递,对有标记和无标记样本进行预测判别。利用该方法在同上三个数据集上进行测试,结果显示该方法分类效果较好(分别为99.66%、97.35%、92.02%),敏感性较高(分别为99.97%、97.61%、98.05%)。另外对多个经典降维分类算法在三个数据集上进行了测试。降维方法采用PCA及KPCA算法,分类方法采用基于高斯核函数的SVM算法及LDA算法,与本文所提算法比较。结果在数据集OC-WCX2b及BC-WCX2a上结果无显著差距。在数据集PC-H4上,本文所提算法是这几类算法中效果最好的。为进一步检验所提算法分类性能,设计了不同分类器间分类性能对比实验。降维算法均为基于PolyPlus核的KPCA算法,然后利用SVM、LDA及SRC进行分类。结果表明本文所提算法分类性能普遍较高,且稳定性较好。同时,探讨了分类性能与已标样本数量的关系,结果表明总体趋势为分类率随已标样本数量的增加而升高,达到某个阈值时会趋于稳定。总之,基于稀疏表示的半监督学习方法具有较好的分类性能,分类效果更理想。
其他文献
云南省人力资本投资的整体思路和战略目标定位清晰明确,为社会经济的进一步发展提供了强有力的保证.但就其现状来看,在人力资本投资方面,仍存在许多问题有待解决.对此,本文进
目的探讨特利加压素治疗肝硬化顽固性腹水的疗效。方法选取2016年10月至2017年10月我方医院收治的肝硬化顽固性腹水302例患者。采用随机数字表法均分为两组。对照组151例给予
日本无产阶级文学脱胎于明治三十年代的“社会主义文学”,兴盛于大正末年至昭和十年,衰歇于昭和十年至战前,嬗变于二战后。
张家港石头港黑臭河道生态修复工程,根据污染现状进行了针对性的设计和技术优选,采用了清淤、生态拦截带、生态系统构建、PCA多维柔性土壤互助系统和景观提升等生态措施进行
目的:分析膀胱在充盈和排空状态下宫颈癌后装治疗中对膀胱及直肠受量的影响,为减少宫颈癌后装治疗后出现并发症膀胱炎及直肠炎提供依据。方法:选取20例完成盆腔外照射的FIGO分期
美学与艺术学是两门独立的学科,我们研究二者的区别是因为学科内的交叉互释是学科发展的一个趋势,而并不是将它们之间刻意划一道鸿沟。研究它们的异同,不仅使我们对美学与艺
目的:观察益气扶正汤减轻晚期非小细胞肺癌(NSCLC)化疗后迟发性呕吐的疗效。方法:112例分为实验组和对照组各56例,两组均给予格拉司琼于化疗期间静脉滴注,治疗组加用益气扶正汤。
在互联网和人工智能技术快速发展的时代,对话系统以其自然友好的交互方式,促进了人和信息的连接。而在开放领域下构建的聊天对话系统,更有着广阔的研究价值和应用前景。现有
晚唐小品文在唐代诗文走向衰落的过程中,异军突起大放光彩。晚唐讽刺小品文的兴衰,是晚唐特定的时代环境——政治环境、社会环境和文学环境的必然产物。本文试从以上三方面来
"在许多城市中存在着有效课堂——‘标杆’学校,甚至是这样一类学校的学校群——但是,任何这样一类成功的模式如果拓展到整个区域范围就很少再有同样的样板了。"在全球教育改