基于机器学习的GPCRs识别及其与药物之间的相互作用预测

来源 :景德镇陶瓷大学 | 被引量 : 0次 | 上传用户:lz1111111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
G-蛋白偶联受体(GPCRs)作为人类中最庞大的膜蛋白家族,它们参与调控多种生理过程。此外,它们也是现代药物开发的最重要的靶点之一。然而,用传统实验方法来识别GPCRs及其与药物之间的相互作用需要花费大量的时间。幸运的是,近年来,由于计算机和生物学的迅猛发展,大量有关GPCRs的氨基酸序列被测定收集和公开,以及能与GPCRs发生相互作用的药物分子的数据日益积累,使得基于大量数据开发先进的预测模型来精准识别GPCRs以及预测GPCRs与药物(GPCR-drug)之间的相互作用成为了可能。本文主要研究的是GPCRs的识别及其与药物之间的相互作用预测,具体的研究工作包括以下几点:1.建立基于蛋白质序列的自动化识别模型精准识别未知蛋白质是否属于GPCRs。首先使用词嵌入(Word-Embedding)以及结合加权轮廓系数的词袋(BOW)模型从GPCRs的蛋白质序列中提取1011维的原始特征向量。随后采用人工神经网络对特征进一步优化,再基于机器学习算法XGBoost构建自动化识别GPCRs模型。最后,通过不同的验证方法对所提出的模型进行检验。与其它先进的模型对比结果显示,本文建立的模型具有更强的泛化性能。2.建立自动化模型预测GPCR-drug中是否存在相互作用。对于GPCRs,本文采用BOW模型来提取蛋白质序列特征。对于药物分子,采用离散小波变换(DWT)从原始分子指纹中提取特征。随后,选择SMOTE算法对训练数据集进行平衡再利用人工神经网络进一步提取特征。然后,利用神经网络所选特征训练梯度提升决策树(GBDT)模型。最后,通过留一验证和独立测试来检验模型。根据与其他先进模型对比的结果,无论是基于留一验证还是独立测试,本文建立的模型具有更佳的预测性能。3.为了方便研究人员使用或检验本文的研究成果,作者基于1和2中的模型建立了预测平台提供在线服务。考虑到研究人员可能有不同的需求,该预测平台提供如下四种服务:(1)识别序列是否为GPCRs。(2)预测GPCRs序列和药物分子是否具有相互作用。(3)从本文构建的药物分子数据集中返回能与给定序列发生相互作用的药物分子。(4)对于给定序列,先对其进行GPCRs识别,若为GPCR则从本文构建的药物分子数据集中返回能与给定序列发生相互作用的药物分子。本文深入研究了GPCRs识别及其与药物分子的相互作用预测,以现有的方法为基础建立了预测效果更佳的模型,并基于它们构建在线预测平台。
其他文献
目的:利用数据挖掘技术分析治疗月经病中医无名方的组方用药规律。方法:收集整理治疗月经病的无名方,使用中医传承辅助平台(V2.5),采用频次挖掘、关联规则挖掘、基于无监督的熵层次聚类等方法进行用药规律挖掘。结果:分析无名方 484首,药性以寒(35.77%)、温(32.75%)、平(25.85%)为主,药味以苦(35.44%)、甘(27.12%)、辛(22.35%)为主,归经以肝经(30.55%)、
期刊
锂金属具有~3860 m Ah g-1的超高比容量和-3.04V的超低氧化还原电位,被认为是在先进电池领域最有前途的负极材料之一。然而锂金属负极在应用的过程当中有诸多的问题,如枝晶、死锂、电极的体积膨胀、粉化等等,这些都严重地阻碍了它的实际应用。本文以锂枝晶的影响因素作为研究的基础,考虑电极的体积膨胀、锂离子的分布、锂金属的沉积和剥离等多方面的因素,设计有效的锂金属负极骨架来抑制锂枝晶的生长,缓解
学位
皖南古村落是中国传统建筑群中具有典型地方文化特征的古村落,是徽文化的重要物化体现,也是中国传统文化中的符号和标志,它融合了多种艺术领域的文化内涵以及独特的民族化造型语言,反映了无与伦比的艺术魅力。本文以油画为载体,将中国传统文化中徽文化的造型元素应用于油画创作中,探寻一种新颖和传统相结合、民族特色与历史美感相融合的表现形式来继承和发扬中国传统文化,贯彻落实文化自信。运用油画创作形式弘扬皖南古村落的
学位
国有企业作为国民经济的支柱,在促进我国的经济发展中发挥着重要作用,但国有企业在治理机制、运营效率等方面的问题一直对其发展产生负面影响。随着我国经济发展进入新常态,国有企业面临日益高效和高质的发展要求,进一步推动国有企业改革,解决其发展中的沉疴积弊,使其担负起新常态下缓解经济增速下滑、促进经济增长的使命,成为当前我国经济改革的重要任务。2013年十八届三中全会把发展混合所有制经济提升到新的高度,为当
学位
科技革命是当今世界没有硝烟的战争主战场,而显示面板行业作为一个战略性新兴产业,科技引领和产业联动效应较强,在一国经济中具有重要的作用。然而,受疫情危机和国际贸易摩擦的影响,显示面板制造业面临极大的挑战,比如全球供应链的紧张、技术保护和封锁等等,这些问题和挑战阻碍了显示面板企业的可持续发展,影响了企业战略推进和财务绩效提升,对企业资源配置和重整提出了更高的要求。而京东方作为行业的龙头,其所面临的问题
学位
现实中许多的多属性群决策问题涉及到多种异质的评价属性,单一的信息形式不能灵活、准确的表达定量和定性多种属性的评价,保留多种信息形式有利于信息表达的完整性和决策结果的可靠性。因此,混合信息多属性群决策十分具有研究价值。本文在实数、区间数、直觉模糊数和语言Z数组成的混合信息评价环境下,对基于共识模型的混合信息多属性群决策方法展开研究。具体研究内容主要包括以下几个方面:(1)混合信息基础理论研究。将实数
学位
我国居民的对熟肉食品的消费逐步增加,但是部分散装熟肉食品保质期较短,易腐败变质,极易影响熟食企业形象。为了企业的健康发展,连锁熟食企业需要加大对熟食在物流运输中的关注,其中熟食配送环节对于控制企业成本,保证熟食质量至关重要。本文在相关理论研究的基础上,调研分析了J熟食公司的相关情况。济南J熟食公司的产品由分公司自己生产、配送与销售,同时配送中心与配送车队企业自营。公司为部分商超配送包装熟食产品,配
学位
美国发起的对华贸易战中限制了对华芯片的出口,中国中兴通讯在内的多家实体企业被美国列入出口管制清单,全球各大芯片供应商也相继宣布不再为华为供货或提供代工服务,中国相关企业被迫从依赖进口向自主研发转型。以上无不表明中国缺“芯”少魂的现状,作为现代工业的“食粮”,芯片被广泛应用于众多新兴领域,离开芯片产业的支撑,智能终端的发展将无从谈起。而中国芯片技术长期受制于人,如今正面临着“卡脖子”的困境。要想突破
学位
近些年来,随着人们生活水平的提高,食物越来越多样化,患糖尿病的人数也越来越多,糖尿病逐渐成为影响人类健康的主要因素之一,而妊娠期糖尿病是其中特殊的一种。孕妇患妊娠期糖尿病之后对胎儿和自身的影响都很大,甚至危及到生命,因此对妊娠期糖尿病的早期筛查非常重要。目前,机器学习的发展越来越成熟,很多领域都会结合机器学习模型解决相关问题,并取得了显著的成果。因此,可以将机器学习模型应用在妊娠期糖尿病的预测上,
学位
我国是农、林业大国,每年会有大量的粮食和水果收获。但是在种植农林作物时会经常遇到病虫害,这对农林业从事者们是一个非常头疼的问题。一旦病虫害问题严重,就会大大影响农林业从事者半年或者一年的收成。因此,避免农林作物受到大面积的病虫害,害虫防治工作尤为显得重要。随着计算机视觉的快速发展,很多方法都有被应用在害虫图像识别上面。如近年来发展的比较成熟的卷积神经网络(CNN)技术以及基于卷积神经网络的各种深层
学位