基于词频统计编码和流形学习的蛋白质二级结构预测方法研究

来源 :河北工业大学 | 被引量 : 2次 | 上传用户:dufuyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物信息学中,蛋白质结构预测一直是人们没有完全解决的难题。目前在对蛋白质结构预测的研究中,蛋白质二级结构预测不仅作为重要的研究内容之一,更是结构预测的难点所在。在分子生物学领域,蛋白质的二级结构若能预测到较高的准确率,那么就能较为准确地预测出这种蛋白质分子的三维空间构象,对蛋白质序列的分析与研究、结构序列的缠绕以及确定蛋白质分子的生物学功能也具有重要意义。本文就蛋白质二级结构预测做了以下工作:1、比较分析了不同的编码方式对预测结果产生的影响。分别比较了21位编码、5位编码、Profile编码对预测结果的影响,并通过滑动窗口法分析了氨基酸序列组成结构,提出了一种新的氨基酸序列编码方法——基于词频统计的编码方法。使用不同的分类算法在三个数据集上比较了四种不同的编码方法,实验结果表明基于词频统计的编码方法的预测准确率最高能够达到80%~90%,大大高于其它三种编码方法。2、建立一种基于流形学习的蛋白质二级结构预测模型,即先使用流形学习方法对数据集进行特征提取,之后再使用不同的分类算法进行二级结构预测。实验中采用Isomap、LE、LLE三种不同的降维方法对三个数据集进行降维,实验结果表明LE算法最适合蛋白质的特征提取。3、在三个数据集上验证了基于流形学习的预测方法的性能。在实验中,首先利用LE算法将高维的蛋白质序列数据映射到低维空间中,然后用SVM、NB、BP神经网络及K近邻四种分类方法预测蛋白质的二级结构,实验结果表明用SVM预测的结果最好。同样,基于词频统计编码在降维后预测的准确率也明显高于其它三种编码方法得出的预测结果。同时,预测方法的执行效率得到了极大的提高。
其他文献
目的评估感觉统合训练在脑瘫中的应用价值。方法对92例脑瘫患儿随机分为治疗组58例和对照组34例,两组患儿都进行运动疗法、智力训练、针灸、理疗、静滴护脑药物,每日一次;治
会议
微生态饲料添加剂具有安全、有效、无污染、无耐药性、无残留的优点,是发展生态养殖和绿色食品的需要,也是饲料添加剂开发和研究的热点之一,在饲料添加剂应用上有广阔的发展
我国八十年代末引进了瑞士厄里空-康特拉夫斯公司的双35毫米牵引高炮系统.通过技术引进和国产化研制、试验对其设计思想进行了初步地探讨,希望从中得到借鉴和启发.
通过合成工艺过程危险有害因素的辨识和分析,运用道化学公司火灾爆炸危险指数评价方法对某厂尿素合成生产工艺过程进行火灾爆炸危险性分析和综合评价,得到了火灾爆炸指数、危险
分析了中国科技力量增强,而国内科技期刊优质稿源不够充足的原因,针对这些原因提出转变评价体系、加强期刊管理的建议,并提出国内期刊也应转变思路,加强宣传、发挥编委职能以
以职前职后融合的理念,从职后人才基本素养的角度进行专业课程技能目标的设定,专业核心课程根据职后人才核心能力的要求,设定课程的核心能力指标作为课程评价的重要标尺;以专业课
目的:探讨采用颌下区小切口摘除下颌下腺的改良手术方法。方法:在颌下区作30mm长的切口,对6例慢性下颌下腺炎的患者进行了腺体摘除术。术中保留颌外动脉及面前静脉。结果:手术时
目的预防心脏术后低钠血症。方法运用循证护理方法对50例心脏疾病患者术前进行针对性健康教育,指导其适量摄盐;术后严密监测电解质和观察患者精神状况。结果8例术后发生中、
从总体和部件上介绍客车冷却系的设计要点,提供相关经验数据和计算公式。
自行高炮是一种用于伴随部队行军的机动式防空武器系统。第一代自行高炮以目视瞄准和利用简易提前量计算跟踪目标为特征,典型的第一代自行高炮有美国的M19式、M42式40毫米双