基于多分类器融合的蛋白质二级结构预测方法研究

来源 :齐鲁工业大学 | 被引量 : 2次 | 上传用户:huang_hh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为生物信息学领域的一项基础性研究,蛋白质二级结构预测对确定蛋白质的空间结构、明确蛋白质功能等有着重要的意义。虽然可以通过实验测定蛋白质结构,但其耗时耗力难以满足当下日益增长的蛋白质序列数据处理需求,借助机器学习手段预测蛋白质结构势在必行。由于现有单分类器二级结构预测方法的效果难以继续提升,本文尝试对多分类器融合方法展开研究,以期改善结构预测的效果。本文以基于多分类器融合的蛋白质二级结构预测方法为研究对象,主要内容如下:首先,本文总结了蛋白质的分子组成信息、结构分类信息以及常用的蛋白质数据库;并从同态融合学习和异态融合学习两个角度出发,对多分类器融合学习方法进行了细致梳理和综述。由于特征向量的构造以及多分类器融合方法的设计是基于多分类器融合的蛋白质二级结构预测方法的两个重要环节,上述综述为本文的研究提供了理论基础和应用前提。其次,本文提出基于多重进化矩阵加权融合的蛋白质二级结构预测方法。该方法使用基于近相关蛋白比对得到的打分矩阵和基于远相关蛋白比对得到的打分矩阵作为成员分类器——支持向量机的输入向量;对成员分类器输出的后验概率信息运用加权融合方法进行处理,利用成员分类器在训练集得到的分类错误率求得各个成员分类器权重,构造基于加权融合方法的多分类器融合模型。实验结果表明该方法能够有效提高蛋白质二级结构预测准确率。最后,本文提出一种基于熵的动态自适应加权融合蛋白质二级结构预测方法。该方法设计了两种加权系数,一是根据成员分类器输出的样本后验概率信息计算出的熵值来调节权重大小,熵值越大的分类器赋予的融合权重越低;二是根据成员分类器对分类结果的“自信”程度,动态调整其加权参数。最后通过加权投票的方法实现融合,得到最终的预测结果。实验结果表明该方法能够有效提高蛋白质二级结构预测准确率。
其他文献
地形对植物多样性影响的研究已经成为生态学和地理学研究的一个热点问题。但是,大多数研究往往从一个幅度或者层次尺度展开,这种单一的研究限制了地形对于植物多样性影响的全
对观点传播数学模型的研究有利于更好地描述社会信息传播的一般规律.本文在小世界网络模型解决观点传播问题的基础上,深入探讨了其缺点,并将社会关系网络所依赖的毗邻关系、
近些年来,各级政府出于对于体育文化产业的推动与促进,陆续发布了很多相关的扶持以及改进措施。所以很容易看出,结合湖南省的体育文化特色,还是有很多的机遇和挑战的。虽然在
高职教育是一个特殊的教育层次,主要为生产一线培养高素质的劳动者,这一培养目标有别于普通高等教育。由于高职学生自身和社会的诸多因素,影响了部分学生顺利就业,对其造成一
中东呼吸综合征冠状病毒(MERS-CoV)是继严重急性呼吸综合征冠状病毒(SARS-CoV)之后发现的一种能引起人类严重急性呼吸道疾病、具有高致死率的新型冠状病毒。该病毒已从主要流行的
当今是信息变化发展快速的时代,高校利用微信公众平台新阵地开展团学工作,对加强学生思想政治教育,宣传校园文化,及时消除负面的网络舆情促进校园安全稳定有重要的作用。本项
<正>衡阳市首家现代冷链物流园白沙洲物流园开业日前,衡阳首家现代冷链物流园——白沙洲物流园冷链项目正式开业,其3.5万吨智能环保冷库,引领衡阳冷链物流行业发展,成为湘南
慕课的优势使其得以迅速发展,在各国的高等教育中蔓延开来。慕课在我国成人教育中的应用及建设正处于摸索阶段,许多问题有待探索。本文在调查成人学习者学习特征、梳理现有慕
伴随我国城市化建设的不断深入发展,相关建筑工程项目也在不断增多,并为推动我国城市化建设发展做出积极贡献。而在此过程中,若无法通过良好的监理工作加强施工管理,则很有可
本文在过去对广东阳江和江西某铀矿附近两个天然辐射高本底地区9种天然放射性核民年男子的食入摄入量及其所致内照射剂量估算以及与我国正常本底地区比较研究的基础上,根据近年