基于集成学习与多标记学习的蛋白质分类方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:xjy_1666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大量生物学数据的增长,仅仅利用传统的生物学实验来测定蛋白质结构或其他性质的方法不仅需要耗费大量人力物力,其时间的耗费也是相当大。因此,如何建立自动学习的方法来预测蛋白质,从而大大降低生物实验的成本是一个非常有意义的研究课题。另一方面,随着机器学习技术的快速发展,其应用领域也得到了不断的扩宽,特别是在生物学领域的应用,面对大量的生物信息机器学习得到了充分的应用。本文的主要内容包括以下几个方面:(1)引入了两种蛋白质特征提取方法。本文在蛋白质分类问题当中引入了两种有效的特征提取方法:一种为代表氨基酸组成成分即物理化学特性的混合特征,共计188维;另一种为代表蛋白质同源信息的基于位置特异性得分矩阵的特征,共计20维。两种特征提取方法各有优劣:188维特征提取速度快,但会牺牲一定的准确率;20维特征提取较为耗时,但却具有更高的预测精度。(2)提出了基于集成分类器的蛋白质折叠模式分类方法。蛋白质结构预测是生物信息学当中的重要课题,而蛋白质折叠模式的识别对蛋白质结构预测起到了关键作用。本文针对以往的蛋白质折叠模式分类准确率不高的情况,引入了集成分类器。本文的集成分类器基于投票的机制,最终预测结果集成了两种基分类器的分类结果,在公用数据集中取得了最佳的分类效果。(3)提出了基于多标签学习的双层酶分类模型。第一层模型预测给定的蛋白质序列是否是酶,若是酶,第二层则进一步预测酶的功能子类。多功能酶由于其特殊的性质成为了酶分类问题当中非常棘手的异类。本文利用了机器学习中的多标签分类,解决了以往研究者未曾涉足的多功能酶分类问题,并且取得了很好的分类效果。(4)开发了蛋白质折叠模式在线预测平台PPL以及酶在线预测平台IME。PPL和IME都具有在线预测功能,此外还提供程序的下载以便进行本地实验。网站中还提供本文所用到的数据集下载,方便用户使用与研究。
其他文献
借用互联网这一平台,可将公民以往被动接受的角色转变为主动创造的角色,推动公民与社会和政府部门产生新的关系。当前公民众包这一组织模式,已成为公民参与社会创新和服务的
中华人文始祖黄帝曾受到中国历代王朝的祭拜。改革开放以来,随着海外华人寻根拜祖热的兴起,开发黄帝文化旅游资源再度掀起高潮。如何正确对待各地在开发黄帝文化旅游资源过程
目的探讨高效抗反转录病毒治疗(HAART)艾滋病(AIDS)的疗效以及对艾滋病病毒(HIV)感染者/AIDS病人(简称HIV/AIDS病人)血清辅助性T细胞(Th)17细胞相关因子白细胞介素(Interleuk
"高分五号"卫星是中国高分辨率对地观测系统重大专项中实现高光谱分辨率观测的卫星,运行于高度705km的太阳同步轨道,装载可见短波红外高光谱相机、全谱段光谱成像仪、大气环
一个注重读者体验的文学翻译需要在语言和作者写作目的等多方面实现对等翻译,这就需要合适的翻译理论加以指导。该文选取了美国小说《了不起的盖茨比》姚乃强译本中的翻译实
基于当代大学生公共精神之状况,从深入分析当代大学生公共精神缺失的原因和加强大学生公共精神建设的必要性入手,提出了如何开展行之有效的培育公共精神的对策。
英文歌曲在高中英语教学中不但能调动课堂气氛,加强师生互动,更重要的是能从语音、听力、语法、中西文化等方面让学生对英语这门语言有更深刻的了解。
在油田开发初期缺乏动态资料的情况下,运用相对渗透率曲线计算采收率具有较高的适用性和参考性。但是具有多块岩心资料时,多是选取储渗特性相近的岩样为代表,先划分区块,然后