基于机器学习的RNA—蛋白质相互作用预测研究

来源 :青岛科技大学 | 被引量 : 0次 | 上传用户:yanmu1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA-蛋白质相互作用(RNA-protein interactions,RPI)在细胞运动、染色体复制、转录与翻译和信号传导等基本细胞生理过程中发挥着重要作用,其机能失调是导致神经性疾病、癌症、免疫紊乱等疾病的原因。预测RPI可以为细胞生物学功能探索、疾病干预和药物设计提供指南,对生命科学、医学和信息科学的发展具有重要意义。传统生物实验方法耗时耗力且稳定性差,不能满足大规模预测任务的需求。因此,迫切需要探索和开发低成本高效率的计算方法对RPI进行预测研究。本文综合运用多种机器学习方法对RPI进行预测,研究内容如下:1.提出一种基于Stacking集成机器学习的RPI预测方法RPI-MDLStack。首先融合序列信息、物化性质和二级结构信息对RNA进行表征,融合序列信息、物化性质和进化信息对蛋白质进行表征。其次,本文首次将最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator,LASSO)特征选择算法应用到RPI预测领域,筛选出对预测任务贡献大的低维特征子集。最后,基于Stacking集成策略,将多层感知机(Multilayer Perceptron,MLP)、支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)三种经典机器学习方法和门控循环单元(Gated Recurrent Unit,GRU)、深度神经网络(Deep Neural Networks,DNN)两种深度学习方法作为基分类器组合,与元分类器SVM进行集成构建预测模型框架。最终,基于五折交叉验证,RPI-MDLStack在数据集RPI488,RPI369,RPI2241,RPI1807,RPI1446上的准确率分别达到96.7%,87.3%,94.6%,97.1%,89.5%。在独立验证测试实验中总体预测准确率达到97.8%。此外,本文也将RPI-MDLStack模型对RPI网络进行预测和可视化。实验结果表明,RPIMDLStack可以为提高RPI预测能力提供见解。2.提出一种基于基于生成式对抗胶囊网络和卷积注意力机制的RPI预测方法RPI-Capsule GAN。首先融合k-mer,RNA二级结构,KGap描述符,伪二级结构组成用于对RNA序列的表征;融合三联体组合信息编码,蛋白质二级结构,距离差异位置特异性得分矩阵,简化位置特异性得分矩阵,分组三肽组成对蛋白质序列进行表征。其次,使用弹性网(Elastic Net,EN)特征选择方法,去除变量之间的冗余信息或与任务不相关的噪声。最后,本文首次将卷积注意力机制(Convolutional Block Attention Module,CBAM)引入生成式对抗胶囊网络(Generative Adversarial Capsule Network,Capsule GAN)构建RPI预测分类框架,每个输入特征分配权重优化特征空间。在5折交叉验证测试中,RPI-Capsule GAN方法对数据集RP1488、RPI369、RPI2241、RP11807和RPI1446的预测准确率分别为97.1%,88.8%,92.5%,97.3%和87.8%,优于其它现有RPI预测方法。在本文构建的五个测试数据集NPInter227中,预测准确率分别达到97.38%,96.48%,97.38%,97.81%,97.15%,优于其它主流深度学习算法。此外,本文也将RPIMDLStack模型对酿酒酵母细胞中的RPI网络进行预测和可视化。实验表明,RPICapsule GAN能够实现对RPI的准确预测。
其他文献
近年来,化石燃料的大量使用引发了大量的环境问题,这与当前世界范围内兴起的可持续发展潮流相悖。寻找可替代传统化石能源的可再生清洁能源成为了解决当前环境问题的关键,因此以氢作为媒介的氢能经济被提出。氢是一种环保并且可再生的能源,产物无污染,但在常温常压下的性质并不稳定,具有一定的安全和应用成本问题。化学储氢是一种很有潜力的储氢手段,常用的化学储氢载体主要有甲酸、水合肼、氨硼烷等等。化学储氢载体在催化作
学位
随着测序技术和生物医学大数据的发展,海量的药物分子结构和蛋白质序列不断涌入数据库。通过深度挖掘药物和靶标蛋白质之间的潜在生物学信息对于药物研发、老药新用以及药物重定位有着重要意义。由于传统的实验室鉴定方法效率低且耗费资源,而利用计算方法预测药物-靶标相互作用(Drug-Target Interactions,DTIs)越来越受到研究者的关注。伴随机器学习的广泛应用,利用机器学习预测药物-靶标相互作
学位
钙钛矿太阳能电池由于制备工艺简单、成本低廉以及其较高的光电转换效率,成为目前光伏领域关注的热点。钙钛矿太阳能电池的重要组成部分除钙钛矿吸光层外还包括载流子传输层,其成分和结构对器件的效率和稳定性都有重要的影响。氧化锡(SnO2)由于其合适的禁带宽度和较高的电子传输效率而成为最有潜力的电子传输层材料。相比于平面结构,介孔结构与钙钛矿吸收层的接触更紧密,更有利于稳定性的改善。因此,低温条件下制备机械强
学位
长城这一军事防御工程,不只是一道简单的城墙,而是由长城沿线的敌台、关、堡、烽火台及其他相关遗迹组成一个完整的防御体系。2006年,国家文物局启动《长城保护总体规划》编制前期工作,本文对明长城保护与利用的研究是基于《辽宁省明长城保护规划》这一省级总体保护规划编制过程中总结的基础数据和相关经验。辽宁省明长城作为明代长城的东部起点,有着重要的研究价值。本文以辽宁省明长城为研究案例,通过对相关案例——哈德
学位
随着现代工程控制技术的迅速发展,人们对被控系统性能提出更高的要求,越来越多实际系统开始考虑随机因素的影响,随机非线性系统的控制理论研究受到广泛关注。与一般非线性系统相比,随机因素的存在使得随机系统的控制器设计和稳定性分析更加困难,还没有普遍适用的控制方法来解决这些问题。因此,随机系统的自适应控制问题是一个值得研究的课题。本文利用自适应控制,Backstepping技术,Lyapunov稳定性理论,
学位
随着改革开放,中国开始融入世界秩序中,国际化程度越来越高,中国家庭的收入不断提高,越来越多的国人走出国门,接受到国外文化的影响和冲突。国外的教育模式和方式也进入中国家庭的视野,随着外籍工作人员及其子女普遍来华生活,子女能够得到与国际接轨的教育需求催生了国际学校的诞生。教学空间承载了学生主要的生活学习场所,是教学活动发生的试验场,当代国际学校面临国际化与本土化的双重挑战,必须通过深入研究中外国际学校
学位
城乡空间统筹发展是现代化的必由之路、为城市和乡村协同发展创造条件。城市发展对乡村有较高的依赖性,两者相互影响,构成一个不可分割的整体。积极落实乡村振兴政策,更好地解决“三农”问题,充分利用农村地区已有的资源,为农村地区产业化发展创造条件,增加农民收入,获取更多的经济收益,为农村区域现代化发展创造良好的条件。城乡空间统筹发展是保障农民公平发展,公平就业的基础,也是推进小康社会全面建设的驱动因素,通过
学位
迭代学习控制属于智能控制方法其中的一种,由于其显著的优点和良好的控制性能,已经成为智能控制领域的热门研究方向之一,愈发受到众多研究人员的高度重视,并得到了广泛应用。本文基于迭代学习控制理论,研究了一类带有混合参数的非线性系统的迭代学习控制问题。除此之外,针对多智能体系统的广泛应用,又定向研究了一类带有混合参数的多智能体系统的一致性问题。以下是论文的主要工作:(1)针对一类带有混合参数且具有输入饱和
学位
我国社会经济发展推动了小学教育领域在教学理念、模式和方式部分的变革,小学校园规划从传统建筑功能的附属转化为引导学生健康学习成长的乐土。但是,寒地城市小学的现状由于受到寒地气候和理念落后的影响,小学校园的实际形式较为单一,水平差别大,空间的呆板和传统限制了学生校园活动多样动态的空间需求,从而造成学生行为方式受到影响。因此,近年来寒地城市小学校园空间的设计走入研究者关注的重点,从儿童的生心理特征出发,
学位
钢结构具备众多优点,如施工方便、自重轻、绿色环保等,但是,它也有缺点,那就是耐火性差。发生火灾时,钢构件会发生局部破坏,进而造成巨大损失。而当火灾发生在高层钢结构建筑中,损失会更加严重,所以对高层钢结构耐火方案的研究就显得尤为重要。钢结构的耐火方案有很多,但是很少从经济方面去进行比较。钢结构的耐火方案的费用占钢结构造价的比重很大,由于高层钢结构建筑的巨大体量,其防火费用更大。所以在相同的耐火极限时
学位