高维蛋白质质谱数据的分类方法对比研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:nyhtstchhgxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症已经成为严重的影响人类健康的疾病。癌症大部分是可以预防的,但在癌症疾病的初期却是很难被检测和诊断的。于是如何对癌症疾病的初期进行有效的检测成为了提高癌症疾病治愈的重要方法。蛋白质组学的研究为癌症疾病的初期检测提供了新的思路。随着信息技术的快速发展,通过分析利用质谱分析仪得到的蛋白质质谱数据可以去检测样本是否患有癌症,或者是癌症的初期还是晚期。本文是以真实的黑色素瘤细胞的蛋白质质谱数据为基础,结合数据挖掘中的分类方法和范剑青老师所提出的ROAD方法对黑色素瘤数据进行分类研究。文章的目标是对黑色素瘤细胞的蛋白质质谱数据进行有效的分类(初期还是晚期)。本文首先详细的阐述了数据挖掘中的五种分类方法:KNN分类、SVM分类、Random Forests分类、Naive Bayes分类和Fisher分类方法及它们的优缺点。同时也介绍了ROAD方法的具体过程及求解方法。其次,由于蛋白质质谱数据一般都是小n大p的高维数据,本文所采用的数据n=205, p=18856。并且蛋白质质谱数据还具有高噪声、高冗余等特性,使得分析此类数据非常困难。由于有一般计算机处理数据的能力有限,仅能处理几千维的数据,所以文章利用了t检验和标准化对数据进行了预处理。最后针对上述方法对黑色素瘤细胞数据进行了实验分析,通过误分类率进行结果比较。结果显示,对于小n大p的蛋白质质谱数据,ROAD方法会有较好的分类性能,误分类率较小,分类效果会更加的理想。
其他文献
连动式债券是近年来新引进的一种金融创新工具,它为股市和债市之间的风险对冲提供了很好的平台。另一方面,对于收益与风险的衡量,定量分析,特别是随机分析理论在金融产品尤其是衍
本文结合西安理工大学科技创新项目《土壤水分运动及溶质运移的数值模拟》,主要针对分层土壤溶质运移的特征有限元数值模拟方法进行了初步研究,取得了如下一些结果:1.建立了
对偶不变性理论是泛函分析空间理论特别是局部凸空间理论的核心内容。在对偶不变性理论中人们通过研究空间上函数的性质来研究空间的性质,而在拓扑线性空间中则试图从X′性质
本文研究变系数非线性耗散波动方程的柯西问题:utt-div(b(x)▽u)+ a(x)ut=|u|p-1 u,x∈Rn,t>0,(0.1)u(0,x)=εu0(x),ut(0,x)=εu1(x),x∈Rn.其中ε>0,系数a(x)∈C0(Rn),b(x)∈C1(Rn)
学位
本文主要讨论了两类相依变量NQD随机序列与NOD随机序列的极限性质,共分为两章. 第一章是有关两两NQD随机列的强收敛性的.两两NQD的概念最早是由Lehmann(1966)提出的,它是一
函数逼近论的研究目的为用简单的可计算函数对一般函数的逼近,并进而考虑这种逼近的程度和如何刻画被逼近函数本身的特性.因此当然希望构造函数的能达到最佳逼近程度的简单函
本文首先介绍了偏微分方程模型在图像处理与分析中应用的主要思想、发展历史和解决问题的基本框架,主要介绍了在图像分割中的应用和水平集方法,总结了偏微分方程图像处理的优点
医学图像可视化是科学计算可视化技术在医学领域的一个重要应用,是当前医学图像处理的研究热点,具有极大的医学研究和临床诊疗应用前景。它主要是通过三维数据场的可视化技术