基于特征增强与属性依赖融合的蛋白质序列分类方法研究

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:jerrymao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
G 蛋白偶联受体(G Protein-Coupled Receptor,GPCRs)是人体中发现的最大的蛋白质超家族,它们的功能是介导细胞对各种环境刺激的反应,参与众多生理过程,如何实现对GPCRs的精确分类是一个热点问题。本文提出了两种解决蛋白质序列分类问题的新方法。与以往的分类方法相比,本文提出的基于多序列比对(Multiple Sequence Alignment,MSA)特征提取方法的半朴素贝叶斯分类算法在分类精度上有了显著提高。该算法主要是将MSA和半朴素贝叶斯分类器进行结合,其中MSA起到了特征增强的作用,用于提取更有价值的序列特征,考虑到特征之间并不是相互独立的,使用半朴素贝叶斯算法来建模特征之间相互依赖的特性。由于MSA是一个比较耗时的过程,为了提高待分类序列特征提取效率,本文还介绍了另一种基于MSA和氨基酸替换矩阵的特征提取的方法,该方法同样在MSA结果中提取特征子串,与之前的方法不同之处在于提取待分类序列特征时不再需要将其加入到各个类别中进行MSA操作。该方法考虑到氨基酸位点在进化的过程中可能发生替换的特性,在筛选特征子串的过程中加入氨基酸替换矩阵来建模这个过程。最后将基于MSA和替换矩阵的方法所提取的特征与多种分类器进行结合,并在GPCRs数据集上进行实验,结果显示该方法不仅在效率上有了很大提高,并且提高了分类精确度,在GPCRs的四个分类级别上分别达到了 99.685%、99.215%、98.822%、97.291%的分类准确率。综上所述,本文实现了两种高效的GPCR分类方法。
其他文献
电致变色技术被发明以来,逐渐受到社会的广泛关注,应用领域也在不断的扩大。早期电致变色技术主要应用在智能节能窗和防眩目后视镜等领域,器件的结构以刚性的三明治结构为主
玉米赤霉烯酮(F-2)广泛存在于小麦、谷物等粮食或饲料中,人类或动物食用受到真菌毒素污染的食物后,会引起潜在的健康危害,因此对食品中的F-2毒素进行有效地监控和快速检测是
半导体光催化技术被认为是缓解能源短缺和解决环境污染的一种可持续、可再生的新途径。开发高效的光催化剂,尤其是非金属光催化剂,是攻克光催化技术的关键因素之一。近年来,
我国低阶煤储量丰富,但因其高含水量和低煤化程度,使得以褐煤为主的低阶煤利用率低下。为了提高褐煤的利用率,各国学者提出了各种处理方法,其中,热解和液相处理是应用最广且
水稻黑条矮缩病毒(Rice black-streaked dwarfvirus,RBSDV)由介体灰飞虱以持久循回方式进行传播,RBSDV侵染后导致植物矮缩等症状,严重影响粮食产量。研究表明P8蛋白是水稻黑条矮缩病毒粒子的核心结构蛋白,具有转录抑制活性,然而是否具有其他生物学功能尚未见报道。本研究通过筛选与P8蛋白互作的寄主因子,研究其在RBSDV侵染过程中的作用。同时我们还在籼粳稻中筛选出了对R
在过去,我们在生产和生活中所用的能源主要以化石能源为主,一方面,使用化石能源造成了环境污染和温室效应,另一方面,随着全球经济和人口的增长,我们对能源的需求也越来越大。
出芽短梗霉(Aureobasidium pullulans),俗称黑酵母,是一种广泛分布于植物表面和土壤中的多形态真菌,在发酵过程中可以产生两种不同类型的胞外多糖——普鲁兰和β-葡聚糖。普鲁兰是目前研究的最多的一种由出芽短梗霉合成的α型多糖,该多糖是由α-1,4-糖苷键连接的麦芽三糖重复单位经α-1,6-糖苷键聚合而成的水溶性高分子聚合物。普鲁兰独特的结构决定了其在食品加工、生物医药、环境保护等领
秀丽隐杆线虫(Caenorhiabditis elegans)简称线虫,是一种多细胞的真核生物,通过对线虫的研究,人类了解到线虫脂肪的遗传代谢通路,发现了基因缺失后,突变型线虫的行为、性状以
在战后日本新时期的鲁迅研究中,1952年成立的东京大学鲁迅研究会占据了重要的位置,他们立志突破战后第一代研究学者竹内好的框架,为形成新的“鲁迅像”而不断努力。他们的研究推动了日本鲁迅研究的发展,并启发了一代又一代的研究者,使日本的鲁迅研究生生不息。因此,本文着力对1952年的日本东京大学鲁迅研究会(以下简称“鲁迅研究会”)做一个系统的论述,主要从研究会的成立背景与历史事件、研究会对鲁迅思想的研究脉
黄腊果(Stauntonia brachyanthera Hand.Mazz.,S.brachyanthera)属于木通科野木瓜属植物,黄腊果籽富含油脂和蛋白质,但在生产过程中经常被直接丢弃,造成了资源的大量浪费。本