基于优化算法的蛋白质质谱数据分析

来源 :山东轻工业学院 齐鲁工业大学 | 被引量 : 0次 | 上传用户:ilclean
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究了基于优化算法的蛋白质质谱数据的特征选择问题。蛋白质质谱技术对于早期癌症的诊断和识别生物标记物是一种革命性的研究工具。但是数据的高维性和小样本问题对于模式识别方法提出了很大的挑战。因此为了解决质谱数据的维灾难问题,在模式分类之前特征选择是必须的降维步骤。特征选择最重要的两个因素是搜索策略和特征评价度量。在生物信号的特征选择领域,单变元特征评价度量已经在文献中提出应用,但是多变元度量却极少使用。本文提出了两个有效的智能优化算法--遗传算法和模拟退火算法来进行特征选择,并且提出了5个多变元特征子集评价函数--包括基于封装器的度量和基于过滤器的度量。k-fold交叉验证用来划分数据成训练样本集和测试样本集。基于线性判别式分析的模式分类器被用来验证特征选择的子集。 通过实验表明,马氏距离及经验分类错误率和后验概率的线性组合是2个很好的特征子集评价函数。同其他方法的比较结果证明,本文提出的基于智能优化算法特征选择模型和特征子集评价度量的结合可以获得比其他文献中已提方法更好的性能。在由FDA-NCI临床蛋白组学计划数据库和弗吉尼亚前列腺中心得到的5个权威数据库上的实验表明,这个方法可以得到具有显著的类区分特性的特征子集,这些子集为发现生物标记物和癌症的早期诊断提供了重要的参考。
其他文献
计算机和网络技术的迅速发展,加快了教育现代化进程的发展步伐,促进了教学方法、教学过程和管理手段的变革。本课题是以研究并利用现有的Web技术对Struts框架和Hibernate框架
在虚拟现实、机器人领域以及数字文化遗产等方面应用中,室内三维模型是不可或缺的数据来源。但是,由于室内环境具有近距离、易遮挡、光照复杂、缺乏绝对定位等特点,所获取的室内
在现代服务业的多数服务业态中,为了完成一个业务目标,往往需要集成多个单项服务,提供组合服务。北京邮电大学作为牵头单位与五家单位共同承担了国家科技支撑计划重大项目《
我国正在全面建设和谐社会,要求社会和谐稳定健康发展,因此对各类公众场所的安全系数和安全保障越来越高。为了让公众享受一个安全和谐的环境,并让公共场所有一个和谐的安防
虚拟化技术,自1959年由Christopher Strachey于巴黎举行的国际信息处理大会上所做的《Time sharing in large, fast computers》报告中首次提出,到现在已经取得了突飞猛进的
随着Internet的迅速发展,网络信息不断膨胀。为了提供高效、准确的信息服务,我们需要对网络中繁杂的信息进行合理的组织与分类。而文本分类作为信息过滤、搜索引擎、文本数据
学位
AdHoc网络是指由一组带有无线通信收发装置的移动节点组成的一个多跳、自组织、无中心网络,它作为一种新型多跳自组网络逐渐成为研究的热点。由于AdHoc网络中的节点能任意快速
决策树是一种有效的数据挖掘方法,进一步改进决策树,提高决策树的性能,使其更加适合数据挖掘技术的发展要求,具有重要的理论和实践意义。本文对决策树算法中涉及的样本筛选方