特征提取及分类算法在膜蛋白分类预测问题中的应用

来源 :兰州理工大学 | 被引量 : 2次 | 上传用户:silentmost
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因是能够自我复制,永远保存的单位,它的生理功能是以蛋白质的形式表达出来的。细胞中有大约30%的蛋白质是膜蛋白。膜蛋白作为生物膜的主要组成成分之一,是生物膜功能的主要承担者,在生物体中发挥着极其重要的作用。面对数量庞大的膜蛋白序列信息,利用传统的分子生物学实验方法来预测膜蛋白结构类型不仅费时费力,还会遇到一些目前无法解决的困难,已经难以满足现实的要求。膜蛋白序列的特征提取和分类是膜蛋白分类预测研究中最基本的问题之一,也是决定膜蛋白分类质量的关键。本文以膜蛋白序列的分类预测为主题,针对膜蛋白序列的特征选择算法、分类算法进行了相关的研究,现将主要工作和创新之处概括如下:(1)本文将线性降维方法应用到膜蛋白分类预测问题中。现今,在膜蛋白特征提取算法中,二肽组成(DC)已逐渐被证明比传统的氨基酸组成(AAC)更有效。然而通过此方法虽然可以取得较高的分类预测精度,但是从膜蛋白序列特征中提取出的属性特征向量的维数一般都很高,它在全面描述膜蛋白序列信息的同时,也带来了“维数灾难”问题,使得膜蛋白预测系统的计算复杂度很高。为了解决这一问题,我们将线性降维方法应用于膜蛋白分类预测问题中。首先采用二肽组成(DC)方法从膜蛋白序列中提取出高维属性特征向量,然后采用线性降维方法从高维DC空间数据中进行二次提取,提取出重要的低维特征向量,接着在降维后的低维特征向量上再进行分类预测,最后预测结果表明采用该方法的预测准确率要高于不采用线性降维方法的预测方法,证明了将线性降维方法应用于膜蛋白类型预测问题中的可行性和有效性,简化了膜蛋白预测系统,提高了预测效率。(2)本文提出五种新的基于降维的组合特征提取算法。本文首先引入线性降维的思想,构造了两种基于线性降维的组合特征提取算法:结合二肽组成和主成分分析算法,构造了新的特征提取算法DC_PCA;结合二肽组成和线性判别分析算法,构造了新的特征提取算法DC_LDA。通过实验结果表明,与传统的基于二肽组成(DC)的膜蛋白分类模型以及基于氨基酸组成(AAC)的膜蛋白分类模型相比较,基于线性降维的组合特征提取算法所构造的分类模型所达到的分类预测精度更高。为了得到具有更好分类性能的膜蛋白分类模型,更好的预测膜蛋白序列中所蕴含的结构和功能信息,本文又构造了三种基于非线性降维算法的组合特征提取算法:结合二肽组成和核心主成分分析算法,构造了新的特征提取算法DC_KPCA;结合二肽组成和核心线性判别分析算法,构造了新的特征提取算法DC_KLDA;结合二肽组成和邻域保护嵌入算法,构造了新的特征提取算法DC_NPE。实验结果表明,与传统的基于二肽组成(DC)的膜蛋白分类模型以及基于氨基酸组成(AAC)的膜蛋白分类模型相比较,基于非线性降维的组合特征提取算法所构造的分类模型所达到的分类预测精度更高。为了得到分类精度最好的分类模型,本文对五种组合降维特征提取算法做了比较,结果表明,基于DC_KLDA的模型分类精度最高,针对标准数据集CE2059,经过Jackknife检验,该模型的总体分类精度达到92.71%,比目前常用的基于氨基酸组成的分类模型提高了15.1~30.59个百分点;针对标准数据集CE2625,该模型的独立测试集检验总体分类精度达到94.12%,比目前常用的基于氨基酸组成的分类模型提高了14.69~31.42个百分点。(3)基因芯片技术从基础上改善了研究生物技术的方法和效率,对基因组学及后基因组研究产生了重要的影响,但海量信息的获得也对数据的分析及信息特征提取提出了新的挑战。为了解决当基因数据维数急剧升高时无法维持较高的分类准确性和效率的问题,本文在传统近似支持向量机(PSVM)的基础上,提出了降维近似支持向量机(DRPSVM)的基因芯片数据分类器。DRPSVM采用了降维的二次规划算法,不但能将基因数据的分类问题归结为仅含线性等式约束的二次规划问题,同时还在传统近似支持向量机(Proximal Support Vctor Machines, PSVM)的基础上维持了较好的分类准确性,并降低了分类处理的时空复杂度。
其他文献
目的本文将对新生儿静脉输液渗漏性损伤的临床防治进行研究。方法选取我院2016年3月-2017年8月接生的76例静脉输液新生儿作为研究对象,将其分为对照组与观察组。对照组新生儿
文章学不仅要研究文章的内部规律,而且应当研究文章的外部规律;对文章系统本身的内部联系的研究,形成了文章的内部规律,主要有层次律、衔接律、统一律、合体律;对文章与它所从属的
本研究针对脑卒中偏瘫患者的平衡功能定量评估的需求,设计一种针对坐下站起过程中各阶段平衡功能评估及训练的系统软件,该软件配合坐位站起平衡功能训练仪使用。软件采用面向
目的观察羟乙基淀粉200/0.5溶液血浆容量替代治疗的有效性。方法选择64例ASAⅠ~Ⅲ级各型创伤及大、中手术病人,给予国产羟乙基淀粉200/0.5溶液进行容量替代治疗,观察用药后生命体征
产学结合是高等职业技术教育发展与建设的永恒课题,校企合作是药学高职高专院校办学育人的必由之路。沿着“教育为社会主义现代化建设服务,为人民服务,与生产劳动和社会实践相结
异位妊娠是妇科常见疾病,近20年来其发生率有逐年上升的趋势,同19世纪70年代相比,该病发病率在世界范围内已升高了近6倍。异位妊娠中输卵管妊娠占95%,而阔韧带妊娠极少见,现将本院
为了观察康复护理对脑梗死偏瘫患者早期康复的影响,从2004年10月~2005年10月,作者选择了85例脑梗死偏瘫患者,对其中43例脑梗死偏瘫患者实施早期康复护理,而对另外42例则行常规护理
随着智能科学的深入发展,涌现出越来越多的智能算法。论文对传统人工智能算法的发展历程进行了回顾和总结。在分析生理学中新陈代谢规律的基础上,对生理学中代谢工程的概念和
目的 探讨家族性早发 2型糖尿病的临床特点及MODY1基因与家族性早发 2型糖尿病遗传易感性的关系。方法 收集 2型糖尿病家系 ,其中早发家系 190个 ,晚发家系 10 3个。采集临
<正> 我国战国时期隐居颍川阳城的鬼谷先生撰写的《鬼谷子》一书,分为三卷十三篇,是我国谋略著作中的一件瑰宝。特别是钓言之术、说人之法、听言之道、揣摩之策,对今天的商贸