基于集成学习的蛋白质序列分类问题的研究

来源 :电子科技大学 | 被引量 : 8次 | 上传用户:hefang1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的蓬勃发展,计算机科学逐渐渗透到生物信息的各个领域,催生了一种新的学科——生物信息学。蛋白质作为人体生命活动的主要承担者,对它的研究能使我们对疾病的机理更加了解,同时对药物的设计也有促进作用。目前生物信息学正处于后基因组时代,大量的蛋白质序列被测定,提供给研究人员的实验数据和可利用信息急剧增加,传统的生物学研究方法无法及时消化新的数据,并把其转化为相应的科学知识。因此,开发可靠的计算方法,快速精确地预测蛋白质的功能尤其重要。基于集成学习,本论文对蛋白质序列的分类预测进行了深入研究,具体的研究内容如下:1)为了更加有效地挖掘蛋白质序列中所包含的信息,本文使用了一种基于g-gap三肽组成的蛋白质序列特征提取方法,利用不同间隔的三个氨基酸残基的组成在蛋白质序列中出现的频率构成特征向量,进而建模分类;此外,本文还提出了一种基于特殊功能区思想的特征离散化方法。这两种方法构成的特征向量所构建的模型,均在噬菌体病毒蛋白数据集上取得了较好的分类结果,说明了特征提取方法的有效性。此外,本文将二肽不同间隔的特征进行融合,使特征之间的信息互补,也取得了较好的分类效果。2)提出了一种基于机器学习方法的集成学习方法,该方法对多特征空间构造多种基分类器,并使用逻辑斯蒂回归或决策树的方式对基分类器结果进行集成。生物信息学中所采用的集成方法,大都是针对单一特征空间构造多种不同的基分类器,或对多种特征空间构造同种分类器,利用简单投票的方式进行集成。为了充分利用不同算法从不同的数据空间角度对数据的不同观测,使模型之间能够充分的取长补短,我们对多特征空间构造了多种不同的基分类器,并利用逻辑斯蒂回归等机器学习方法对结果进行集成。3)提出了一种新的基于逻辑运算的集成学习方法。该方法思想简单,仅采用了与、与非、或、或非四种运算,且摆脱了传统集成学习方法对基分类器的差异性的要求,即便是对于相似的基分类器,也能取得较好的集成效果,并在噬菌体病毒蛋白数据集上得到了验证。
其他文献
在本文中,我们主要探讨模的覆盖和包络的保持。在文章的第二节中,我们主要考虑以下两个问题:在什么情况下,模的内射包络的直积是模的直积的内射包络?在什么情况下,模的投射覆
飞行器为了减轻重量大量用采了薄壁板壳结构,随着飞行速度的越来越高,飞行器表面的薄壁板壳结构会承受多种载荷,包括由摩擦产生的热载荷和推力引起的强噪声载荷。热载荷作用
随着空间探测技术的不断发展,空间操作任务的需求和种类也日益多样化。由于空间环境的非结构化及任务的高复杂性,加上技术条件的限制,空间机器人自主完成操作任务的愿景短期
《网络营销》是K中职学校电子商务专业的专业课程之一,具有较强的适用性,但目前的网络营销课程主要以理论教学为主,其教学效果还有待提高。所以如何提高K中职学生对网络营销课程的注意力,激发学生内因学习动机是职业技术教育研究者和K中职学校电子商务课程专业教师亟需解决的问题。ARCS是由注意、相关、自信、满意四个要素组成的动机模式,通过激发学生学习兴趣,构建知识联系实际,而后在教学任务中获得信心,最终使学生
学位
目的:应用常规T1加权成像和扩散峰度成像,探讨其对足月及近足月儿急性胆红素脑病的临床应用价值。材料与方法:回顾性随机抽取PACS系统内急性胆红素脑病病例20例,另前瞻性地随
随着高层和超高层的逐渐增加,型钢混凝土结构得到了广泛的工程应用。震害研究表明,建筑物的倒塌往由于柱子尤其是短柱的抗剪承载力不足而发生脆性破坏造成的,因此提高柱的抗
屈曲约束支撑是一种新型的耗能构件,由其受压屈服不屈曲,滞回性能饱满等优点,目前广泛应用于混凝土结构加固和钢结构框架体系中,而作为主要的抗震体系应用于混凝土结构中较少
纤维素纳米晶(CNC)是一种具有高强度、高模量、可降解的、良好的透明性、对环境友好的纳米级生物质材料,它的来源比较广泛,制备方法也是多种多样。随着人们对环境保护意识的
随着工程等科学领域动力系统日益复杂化,对互联系统或动态网络的研究已成为智能电网、社交网络、交通运输系统等不同领域的重要研究主题之一。在这些复杂的网络中拓扑结构和
背景和目的:阿尔茨海默病(AD)是一种具有多基因表型及复杂遗传特征的神经退行性疾病。聚集素(Clusterin,CLU)是脑内仅次于载脂蛋白E(Apolipoprotein E,APOE)的第二大脂蛋白,