基于支持向量机的串联谱图预处理模型

来源 :深圳大学 | 被引量 : 1次 | 上传用户:CHEUNGKWOKKUNG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于串联质谱技术的分析方法是如今蛋白质鉴定方法中的主角。随着科技技术的发展,质谱技术也日趋成熟,能够在很短时间内产生大量质谱图,但遗憾的是,几乎每张谱图中都存在或多或少的噪音。一方面,噪音的存在会延长数据库搜索的时间,最终导致蛋白质鉴定时间的增加;另一方面,噪音的存在对质谱鉴定结果存在干扰,噪音严重的情况下,将影响谱图的鉴定,使其发生错误鉴定或者鉴定不出结果。因此,各种质谱去噪方法如雨后春笋般出现。质谱图去噪方法旨在去除噪音峰的同时保留信号峰。传统的去噪方法多是基于阈值:谱图中强度低于设定阈值的峰将会被舍去;又或者选取强度排名前X的峰作为信号峰,X可根据需要自行设定;除此之外,还有一种以X Da为单位,选取范围内排名靠前的峰的方法,X同样可根据谱图实际情况自行设定。以上类型的方法都只是简单考虑了峰的强度,而忽略了隐藏在峰与峰之间的其他特征,在这种过滤方法下,难免会产生有效峰因为强度低而被滤除的情况。机器学习是近几年来热门研究方向,其种类包含:支持向量机、神经网络、贝叶斯等,将机器学习应用于质谱除噪是一个新的领域,目前发表的专业文章较少,可研究性强。本文通过分析机器学习的几个种类,考虑适用性,提出了一种基于支持向量机的方法。支持向量机是以统计学习为基础的机器学习方法,主要用来解决二分类问题。在使用支持向量机构建模型的过程中,由于现今的质谱图中存在着数据不均衡的情况,负样本数据占了大部分,如何处理不平衡数据也是模型构建时需要考虑的地方。对于不平衡数据常用的方法有重采样、欠采样、代价敏感等,通过分析其原理及适用范围,我们最终选择欠采样方法来处理不平衡数据。根据质谱原理及机器学习方法,我们最终选择25个特征构建模型,特征包括中性丢失、谱峰强度及同位素等。模型能够对信号峰与噪音峰进行预测,根据预测结果去除噪音峰实现质谱图过滤。为了检验模型效果,我们在人样本,iTRAQ类型数据集上进行了测试及训练,分别考察了自训练以及组分训练两个方向,并对同种类不同实验结果的数据进行建模检验,通过Mascot鉴定后结果表明我们的模型能够有效预测出有效峰与噪音峰,在谱图打分及肽段、蛋白质鉴定数目上均有提升。
其他文献
目的总结中医专科专家预约结合专家就诊顺序号在门诊分诊工作中的应用效果。方法对预约前(2009年)和预约后(2010年)门诊候诊区的秩序及专家工作效率、门诊患者对医院的总满意
简述了蓝牙技术发展的概况及应用,通过与相关技术比较,认为它可以应用干任何可以用无线代替线缆的场合。
近年来,虽然我国高层建筑的大量兴建,然而由于集中空调系统结构布局的特殊性和管理的相对滞后以及人们认识上的差距,使得集中空调系统的防火防烟等消防问题日益突出,给高层建筑的
摘要:变换工序是合成氨工业中非常重要的单元,CO变换效率有影响着合成氨的产量和经济效益,介绍了淮化合成氨二厂净化作业区预变换技术和预变炉催化剂的运行数据分析以及一种更换方式的思路。  关键词:预变炉;数据分析;更换方式  中图分类号:TB  文献标识码:A  文章编号:16723198(2013)17019502  1前言  合成氨二厂净化作业区变换采用中低低变换工艺,投产以后,为了改变一变炉的工
搭建了小型太阳能蒸发装置,把卤水加热蒸发,再使之冷凝回收淡水。由于装置顶盖表面温度过高,水蒸气不易冷凝,淡水产量较低。后对装置进行改进,采用壁面冷却的方法,即在装置背
随着数字化、网络化技术的普及,图书馆传统的信息采集、传递和处理方式也发生了变化。其服务内容也从“提供给读者馆藏文献”变为“读者获取馆内外信息”。图书馆服务方式也由
在前人研究的基础上,针对绿色供应链综合绩效评价指标体系的构建给出一些建议,通过对绿色供应链与普通供应链的绩效评价进行比较分析,给出绿色供应链综合绩效评价指标体系的构建
金属纳米颗粒和碳纳米管是两种重要的纳米材料。本文采用一个简单的方法合成了铁钴(Fe/Co)纳米颗粒,并采用化学气相沉积法实现了碳纳米管的批量合成,纳米颗粒的尺寸分布均匀,碳纳米
信息时代,对气象图书馆的读者服务工作形成了强有的挑战,其服务工作质量直接影响气象图书馆事业的发展和其自身的形象。因此,图书馆应在各个方面努力创造条件来改进读者服务工作
城市旅游是20世纪80年代迅速发展起来的一种旅游新现象,伴随着进入后工业化社会的步伐,大旅游时代的到来,城市在区城内的综合实力不断增强,城市功能也在向多元化发展,现代的城市已