基于机器学习的治疗性多肽预测研究

来源 :中国矿业大学(北京) | 被引量 : 0次 | 上传用户:bfhx1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
健康和公共卫生问题面临的威胁,需要寻找新的疾病治疗方法。治疗性多肽由于副作用小、可选择性多等优点,逐渐成为生物信息学的研究热点。目前基于生物序列和机器学习的方法是该领域研究和预测多肽序列结构和功能的重要手段,很多研究通过机器学习等方法提出了多肽预测模型。为了快速精准地预测治疗性多肽,本文从特征提取、分类算法、预测模型建立和数据集角度出发,利用机器学习研究治疗性多肽的预测方法。为解决不同特征空间产生的维度灾难以及空间冗余影响预测性能,基于多肽序列信息,提出了基于多源融合特征学习的预测模型。将多肽识别问题转化成图分类问题,利用多肽在结构层面所表现的差异性,提出了基于图卷积神经网络的多肽预测方法,开展治疗性多肽预测研究。为探索了多肽序列的可检测性问题,通过对多肽的可检测性进行验证分析,实现从蛋白质组学中对多肽进行检测,而后实现其功能分析。主要内容包括抗癌多肽特征提取、多源特征融合学习模型及预测研究、基于图卷积神经网络的抗癌多肽预测、多肽可检测性预测研究,具体包括以下几个方面:第一,本文首先介绍了基于机器学习的治疗性多肽预测模型框架,并对预测模型涉及到的分类算法进行了介绍,包括支持向量机、随机森林、人工神经网络和图卷积神经网络,这些分类算法是本文研究预测模型的基础,通过对比不同分类算法的不同应用场景及优缺点,本文有针对性的选择了几类分类算法来建立多肽预测模型。最后介绍了预测模型的性能评估方法和指标,为验证本文提出的模型效能提供了有效依据。第二,针对治疗性多肽的预测问题,本文首先研究了目前治疗性多肽数据库的现状,通过这些数据库,研究人员可以获得相关多肽的序列、理化性质等信息。为了有效的建立预测模型,需要事先对其特征进行提取,本文从序列、结构和关联性等角度提取样本数据的特征,具体涉及14种特征提取算法,结合多肽数据库提供的信息和多角度多肽特征提取,为后续多肽的治疗性预测和研究提供了重要的数据基础。第三,在治疗性多肽预测研究领域,目前较为流行的是采用机器学习的方法,为有效的将治疗性多肽从多肽中识别出来,本文提出了多源特征融合学习方法,通过多角度的特征提取和特征融合优化,建立预测模型ACPred-Fuse,这个模型通过融合29种不同的基于序列的特征预测方式,获得多肽的类别和概率信息,然后对不同角度的特征表示进行优化,形成一个最优的特征表示组合,最后用这个特征表示组合来训练优化预测模型。在分类算法选择方面,选择了随机森林算法作为模型的分类算法。模型的构造分成特征提取、特征表示学习与优化及融合特征学习和特征表示优化三步。通过与已有预测模型的对比性能分析,显示本文提出的ACPred-Fuse方法对抗癌多肽具有更好的预测效果。第四,针对ACPred-Fuse模型,需要首先对多肽特征进行提取,然后通过这些特征表示来进行模型训练,特征提取和特征池的建立相对复杂,对于大规模数据适应性较差,为克服特征提取复杂问题,本文提出了基于图卷积神经网络的预测模型。第一次将多肽预测问题转化成图分类问题,该方法的主要思路为:首先提取多肽的数据集合及其氨基酸序列数据,然后使用独热编码来对多肽的特征进行表示,接着计算每个样本距离,建立邻接矩阵,从而构造多肽和氨基酸图,再使用图卷积神经网络来训练数据集,最小化损失后得到分类结果和不同的评价指标,最后使用交叉熵损失函数来优化分类结果。实验通过在独立的测试数据集上开展十字交叉验证,结果显示,图卷积神经网络的多肽预测模型具有更好的预测性能。第五,在多肽预测研究领域中,多肽可检测性是重要的研究点之一,为了克服已有方法过度依赖经验数据的缺陷,本文提出了用于预测多肽可检测性的基于孪生神经网络的Pep Former方法。这种方法只需要通过对多肽的序列进行预测,而不需要掌握多肽的理化性质以及其他已有的数据结果,通过使用基于转换器和门循环单位的架构,多肽自动学习上下文敏感的嵌入表示,从而充分捕获全局和局部信息来表示多肽的可检测性。本文提出的模型引入了一种新的损失函数,有效的提高了模型的泛化能力。通过实验对比,本文提出的Pep Former在预测的准确性和泛化能力上有更好的性能,更重要的是这种方法可以自动学习和探索序列中的非歧视信息,而不需要任何先验知识和手工特征工程的帮助。
其他文献
近年来多电平功率变换器在中高压大功率领域广泛应用,其中无工频级联式多电平变换器由于其具有体积小、谐波污染小,以及可提供高效且稳定的电能转换功能等优势而备受关注。然而此类变换器结构较为复杂,包含级联模块与功率开关器件数量较多,且功率开关器件的失效严重制约了变换器的发展,此外随着变换器功率等级不断提高和应用范围不断拓展,新挑战和新问题层出不穷,因此其可靠性研究已成为电力电子变换器领域的研究热点。本课题
学位
本文以中国西部煤系地层的弱胶结砂岩和泥岩为研究对象,首先开展了不同含水率冻结砂岩和泥岩强度特性的研究,并结合砂岩和泥岩冻结前后的微细观结构变化,分别探讨了不同初始含水率冻结砂岩和泥岩的强度影响机制;然后基于裂纹体积应变拐点法和体积应变拐点法分别确定了冻结砂岩和泥岩的裂纹起裂强度和损伤强度,研究了冻结砂岩和泥岩的裂纹起裂强度和损伤强度随含水率、冻结温度和峰值强度的演化规律,探讨了冻胀水压对砂岩和泥岩
学位
中国经济已由高速增长阶段转向高质量发展阶段,经济增长的动力也正在由传统的要素驱动向创新驱动转变。在创新产出方面,中国专利申请量连续多年保持世界第一,仍处于维持期内的发明专利数量已是世界第二,但专利的质量和转化率依然有待提升。长三角地区研发资源集中,城市间交流密切,在中国技术创新战略规划中承担着开路先锋的角色。以长三角地区城市为研究对象进行实证研究,既有利于掌握长三角地区的城市技术创新现状,也有利于
学位
层状结构的沉积岩和变质岩是地表最为常见的岩土材料。层状岩体赋存层理等结构面具有明显的横观各向同性,其力学特性不仅和完整基质本身相关,同时与岩体中的层理等结构面产状和物理力学性质密切相关,由此引起其复杂的变形甚至诱发断裂破坏问题。例如,层状岩石的断裂破坏对采矿工程、石油核废料存储、边坡防护及地下工程等岩土工程建设造成巨大负面影响,因此成为岩土工程常见难点和研究热点问题而备受业界专家学者所关注。而在实
学位
随着科学技术的发展,从桑蚕丝中提取的蚕丝蛋白被广泛应用于组织工程、医疗美容、光电传感、柔性可穿戴等高科技领域,从传统的纺织材料进化为多功能材料,以全新的方式改善了人们的生活。材料的性能与其结构密不可分,对蚕丝蛋白组成结构的深入研究有利于制备出高性能的蚕丝蛋白材料,拓宽其在不同领域的应用。为了深入了解蚕丝蛋白结构组装生长过程,掌握其从微观分子到体相材料之间的生长机制,本文首先通过原位原子力显微镜实时
学位
空气环境质量与人类生活息息相关,是不可缺少的基础。城市化的快速发展,大量人口和产业向城市聚集,增加了污染物的排放量,空气污染在北京日益凸显,是北京城市可持续发展面临的重大挑战之一。同时城市绿化的需求也在不断提高,部分致敏性植物使城市居民发生过敏反应,影响人体健康。为探究北京市主要空气污染物与花粉时空变化特征以及影响因素,利用北京市城市生态系统研究站四个野外监测平台6种主要空气污染物(PM2.5、O
学位
新建京张铁路八达岭长城站是国内首座采用矿山法施工的地下高铁车站,车站洞室众多,结构断面和结构形式复杂,车站洞室同时包含相邻和上下交叉两种隧道近接方式。由于采用钻爆法开挖,爆破施工为人们带来便利的同时,不可避免的会对邻近洞室产生有害的爆破振动效应。然而,由于爆破本身的瞬时性和复杂性,加之爆破地震波介质的多变性,使得爆破地震波在传播过程中的随机性较大,因此,深入研究爆破地震波的传播规律及振动响应特性尤
学位
研究背景及目的:肺癌是原发于肺、气管及支气管的恶性肿瘤。全球范围内肺癌是新发病例及癌症死因第一位。其中,约75%-80%是非小细胞肺癌(NSCLC)。尽管历史上肺癌的预后较差,但早期非小细胞肺癌(ES-NSCLC)通常具有更好的预后,随着医学影像技术尤其是低剂量螺旋CT的普及,早期肺癌检出率大幅度提高。但有一部分患者因合并有心血管等基础疾病,不能进行手术或拒绝手术,无法手术治疗早期非小细胞肺癌,尽
学位
巷道/隧道的开挖卸荷效应,直接关系到围岩稳定、支护设计和施工工艺的选择。随着岩土工程不断深入发展,岩体所处环境更为复杂,巷道/隧道的稳定与支护问题越来越困难,面临的挑战和危险不断加大。深部复杂环境的岩石地下工程开挖过程中或开挖后,洞口附近的岩体经常发生卸荷和蠕变,导致大变形和岩爆等灾害,造成施工人员伤亡、经济损失等工程事故。因此,必须对巷道/隧道开挖卸荷条件下围岩的变形规律、强度特征、应力分布特征
学位
快速断电安全技术,是指当矿井低压供电系统发生短路故障或者漏电故障时,能快速切断电源或阻止能量向故障点馈送,以防止电火花或电弧外露而引燃、引爆瓦斯、煤尘,从而达到煤矿井下低压供电系统“全方位”防火、防爆的一种安全技术及其设备。快速断电安全技术包括快速短路保护技术、快速漏电保护技术和快速断电开关技术。为了达到“全方位”防火、防爆目的,快速断电安全技术要求对短路故障和漏电故障的精准识别时间须小于2ms,
学位