基于集成学习的β-内酰胺酶预测和注释分析的研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:tim6888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
β-内酰胺酶是一类由致病细菌分泌的蛋白质,它通过与β-内酰胺类抗生素中的内酰胺环结合破坏抗生素活性,从而增加细菌的耐药性。不断突变和进化的β-内酰胺酶致使越来越多的抗生素药物失效,这一现象引起研究者对β-内酰胺酶的广泛关注。近年来,已有一些预测工具对潜在的β-内酰胺酶进行识别,也存在一些数据库对其提供分类和注释,但是这些预测工具的方法不仅比较简单,性能也不能令人满意,目前没有一个综合平台尝试将β-内酰胺酶的预测和分析结合在一起,从而实现对预测的β-内酰胺酶的多种注释和分析。基于以上不足,本文提出一种基于集成学习的多分类方法,该方法能根据蛋白质序列判别其是否是β-内酰胺酶,并将预测结果精确到它的子类,同时本研究将构建一个包含蛋白质信息注释、预测和特异性分析等功能的综合平台BLHub(Beta-Lactamase Hub),实现对β-内酰胺酶的一体化分析。本论文的主要研究内容与结论如下:(1)针对β-内酰胺酶的预测。本文提出了一个既能预测β-内酰胺酶蛋白质,又能进一步对β-内酰胺酶蛋白质进行分类的集成学习模型,该模型从蛋白质序列本身、物理化学性质以及遗传信息三个角度提取特征,并通过Stacking集成策略融合四个传统的机器学习方法包括随机森林、支持向量机、朴素贝叶斯和K近邻。五折交叉验证和独立测试的结果表明Stacking集成模型的综合性能优于单一机器学习模型。(2)β-内酰胺酶分析平台的构建。本研究搭建了一个β-内酰胺酶蛋白质分析平台BLHub(http://47.110.242.168/index.jsp)。该平台是用Java语言实现的,并采用Bootstrap3.3.6、Ajax、j Query、My SQL和Strust2等技术实现了平台前后端的功能和数据交互。功能方面,BLHub整合了丰富的、多源的蛋白质注释信息,包括蛋白质结构信息、蛋白质活跃位点、蛋白质分类系谱以及抗生素耐药性信息等。同时,平台嵌入了Stacking集成预测模型,能有效的发掘未知的β-内酰胺酶并判断其所属子类。此外,BLHub能对潜在的β-内酰胺酶进行后序的序列相似分析和亲缘性分析,便于科研人员进一步推断未知蛋白的功能和结构。希望本论文提出的预测方法和构建的综合分析平台能成为相关科研人员的研究β-内酰胺酶蛋白质的有利工具,进一步加快潜在β-内酰胺酶蛋白的发现和探索。
其他文献
学位
心房颤动(Atrial Fibrillation,AF)是一种严重且多见的心律失常疾病,患者发病时可能会导致脑卒中并损害其心脏功能。心电图(Electrocardiogram,ECG)是检测AF的金标准。然而ECG有着监测周期短和采集麻烦的短板,而且通过ECG很难检测出阵发性AF。相比之下,光电容积脉搏波描记法(Photoplethysmography,PPG)易于获取并且适合于长期监测。因此,基
随着绿色低碳出行理念的发展以及共享技术的普及,非机动车出行在城市居民日常出行中占据的比重逐渐增大,其出行目的主要包括通勤、购物、娱乐等。科技的进步让非机动车流中的车型不再是单一的人力自行车,而是由自行车、电动自行车以及摩的型电动车组成的多元化混和车型。电动车的续航性和舒适性的增强,非机动车在中远程出行中的比例也逐步增加。从微观上来讲非机动车的通行能力对于单个交叉口的通行效率具有很大影响,而从宏观上
在计算机视觉领域,显著性检测已成为研究者们重点研究领域之一。图像显著性检测目的是在复杂的场景中,通过计算机模拟人类视觉注意力机制,剔除图像中的冗余信息,提高计算机自主、智能理解复杂场景的能力,既能应用于现实生活场景又能助力于其他的计算机视觉任务。随着深度学习技术的不断发展,在图像显著性检测中引入深度学习有助于提高模型的鲁棒性。因此,本文主要研究基于深度学习的图像显著性检测及应用。研究工作如下:在进
随着全球卫星导航精密定位技术、数据存储技术及物联网等技术的高速发展,形变监测、地质勘查救援等多个领域的北斗高精度定位数据规模也呈现指数型增长,这导致数据分析,信息提取变得更加困难,而数据可视化技术的应用对于以上问题具有重要意义。数据可视化技术在当今数据时代有着重要应用,该技术旨在用科学的可视化界面对数据进行多种形式的展现,目前国内外的可视化组件设计平台如data V、Tableau等都存在一定的开
近年来,中小城市非机动车保有量持续增加,城市道路运行状况日渐复杂,随之引发的交通安全问题也日益突出,不仅给交通管理部门在管理上带来了新的挑战,还给交通参与者带来了较大的安全威胁。因此,对中小城市的非机动车交通安全问题进行分类研究,并提出适当的改善措施具有十分重要的现实意义。本文首先对中小城市非机动车的出行特征、骑行特性及事故特征进行了研究。以桂林、柳州和南宁三个城市的实测数据为基础,深入研究路段内
学位
学位
推荐系统通过挖掘用户数据之间的关系发现用户潜在的消费趋势,为用户提供个性化的信息推荐,极大地提高了用户在海量数据中获取信息的效率。然而,推荐系统在挖掘用户数据时,因所涉及的数据含有用户隐私信息,存在隐私泄露的风险,同时,推荐系统存在的评分片面、主观性强、评分矩阵稀疏性等因素影响了推荐的精确度。如何提高推荐系统的推荐精度,保护用户的隐私信息,是当前推荐系统需要解决的关键问题。针对上述问题,本文基于协
分组密码由于在软硬件上实现便捷,常被用于数据加密及隐私保护。如何在大数据环境下,对分组密码进行高速实现,以提供安全支持,成为学术界与工业界讨论的热点问题。关于分组密码的快速实现可以在软硬件两大方面进行优化,在硬件方面的优化主要是利用图形处理器(GPU)实现,基于GPU的多线程、适合并行计算等优点对算法进行优化实现;在软件方面的优化主要是切片技术的应用,基于切片技术在软件实现中模拟硬件的实现方式的思