基于稀疏表示的蛋白质质谱数据分析

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:sdfsdfsdfasdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质质谱技术是一种蛋白组学研究有力的工具,在癌症的早期诊断和生物标志物(Biomarker)寻找中有着巨大的应用潜力。从模式识别的角度来看,癌症诊断和生物标志物寻找分别对应了模式识别中最经典的模式分类与特征选择问题。由于质谱数据本身具有高维度、小样本的特点,使得针对这些数据的分析与处理工作给传统的模式识别方法带来了巨大的挑战,因而特征选择成了必不可少的步骤。通常的模式识别分类方法强烈依赖于降维与训练两个步骤。但是存在几个突出的问题:首先,一个复杂的降维步骤也许在某一个数据集上表现良好,却很难直接应用于其他的数据集上。其次,一些特征提取方法(如PCA)仅仅为服务于分类判别任务,往往在转换而成的新特征空间里,数据仅被看成数值表达,而不再具有明确的物理意义。显然的,这些转换是不符合生物标志物挑选需求的。最后,训练完毕后的分类器退化成一个毫无“生气”的黑箱,不再具有对新数据的直接在线学习能力。针对上述的癌症诊断类型问题,本文在质谱数据分析中引入了稀疏表示分类方法。使用高斯分布的随机投影的方法简单的绕开特征提取过程;使用样本扩充的方法改善小样本问题中稀疏表示的欠稀疏情况,在改善实验结果的同时又印证了本文稀疏表示分类方法良好抗鲁棒性能力。另外,稀疏表示分类方法是一种在线型学习算法,能根据实际样本不断自我调节,从而不断“进化”,是一种智能化学习算法。在论证了稀疏表示分类能力的基础上,针对上述的生物标志物选择问题,本文结合稀疏表示分类与“缠绕法”特征选择模型,得到生物标志物候选集,在此基础上再进一步精选,得到了极少数却又对分类鉴别有突出贡献的生物标志物。通过公共数据集以及来自临床的数据集的实验结果表明,稀疏表示分类有着良好的分类性能以及抗鲁棒性能力,可以应用在蛋白质质谱数据的分类问题。本文的特征选择算法能够挑选出少量的几个具有较高性能,且具有生物意义的蛋白位点。
其他文献
时间序列预测的研究是当今世界中比较重要的研究领域之一,涉及到自然科学和社会科学等众多领域,具有重大的科研价值,对我国各方面的发展有着重要的指导作用。其中使用机器学习算
目前,在中国的纺织工业中,质量控制是至关重要的,而织物疵点的检测是其中最重要的一部分。织物疵点在线检测的目的在是走布的过程中及时的发现疵点,尽可能地提高织物的质量以及检
目前,随着科技的发展,煤矿自动化水平的提升,刮板输送机也朝着自动化、智能化方向发展。刮板输送机的主要功能是转载和运送,同时还与破碎机、采煤机等设备组成一个串联系统。但是
超高压水切割技术是近年来国际上新兴的一种实用技术,具有诸多传统切割技术所不具备的优势和发展潜力,并随着技术的不断革新而日益成熟。建立一套完整的超高压水切割机测试系统
切换系统作为一类重要的混杂系统,它包含若干个连续时间子系统或者离散时间子系统,这些子系统之间依靠切换条件紧密联系。与一般的连续时间系统或离散时间系统不同的是切换系
海上战争历来是战争中的重要组成部分,因现代战争对反应的实时性要求越来越高,海上无人飞行器的航迹规划的快速性也越来越受到人们的重视。矢量图在规划空间上减少了数据量,合理
主动嗅觉研究是一门新兴的学科,它集成了机器人学、人工智能技术、传感技术等多种学科的知识,它在危险环境探索、灾难营救及有毒有害气体泄漏源查找等诸多方面均有潜在的应用
目标跟踪是计算机视觉领域中最具挑战的工作之一。近几十年来,研究者提出了多种优秀的目标跟踪算法,但实际环境中的目标跟踪仍然面临着一系列的挑战,跟踪过程中的目标外观变化,包
本文主要研究了基于TMS320F2812的级联无刷双馈电机控制器的设计与实现。首先,对级联无刷双馈电机(CBDFM)的结构与运行原理进行了分析,理论推导了电机的数学模型,对级联无刷双馈电机在异步、同步和双馈运行模式下的运行特性进行了仿真。其次,研究了级联无刷双馈电机气隙磁场定向的矢量解耦控制,通过建立电机的双同步坐标系模型,实现了控制子系统转子气隙磁链定向的矢量解耦控制,并对控制策略进行了仿真,仿
现代化温室因其高产高质的特点已成为我国设施农业发展的重要方向,发展迅速。但由于温室环境控制技术的复杂性,造成我国温室生产在产量及品质与发达国家存在很大差距。随着计