基于机器学习的蛋白质相互作用预测研究

来源 :山东工商学院 | 被引量 : 0次 | 上传用户:caimingminggood
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质在生物体的细胞过程中扮演重要角色,其功能的发挥是依靠蛋白质相互作用展现的。丰富的蛋白质相互作用信息可以促进疾病的治疗和药物的研发,因此,对蛋白质相互作用的准确预测具有重大意义。高通量的生物实验可用于预测新的蛋白质对,但操作起来既昂贵又耗时,不能满足人们对该类信息的需求。随着机器学习的兴起和计算机算力的日益强大,采用科学计算模型预测相互作用成为首选。本文以蛋白质序列为出发点设计预测蛋白质相互作用的二分类模型,从以下两方面内容展开了研究:(1)基于SVM-SRC概率融合方法的蛋白质相互作用预测模型。针对单一分类器的局限性和噪声对预测结果的影响,提出SVM-SRC概率融合方法。SVM-SRC概率融合方法选择泛化能力较强的支持向量机为子分类器,使用间隔超平面分辨识别困难的边缘样本和容易识别的样本。对于没有明显类别偏向性的边缘样本,采取经过过滤的重构字典训练稀疏表示分类器,使用概率将两种决策结果融合的方式预测目标类别。首先针对现有特征提取方式繁琐复杂和特征种类单一的问题,采用组合、转换、分布和自协方差四种编码方式分析氨基酸理化性质,将蛋白质序列对应氨基酸残基数字化,构成了一种新的蛋白质序列表征模式,综合考虑了多种物理化学性质对蛋白质相互作用的影响。其次在特征选择模块,采用随机森林的特征重要性获取最佳特征子集。在将高维原始特征降维的同时,还有利于了解不同氨基酸理化性质与蛋白质相互作用存在的潜在联系。最后,对模型的参数和阈值进行调优,将数据输入概率融合模型得到决策结果。实验结果表明,SRC可以作为SVM的有效补充。在酵母、人类、幽门螺旋杆菌数据集五折交叉验证下的准确率分别达到94.7%、97.12%和88.53%,具有良好的预测效果。(2)基于深度学习的蛋白质相互作用预测模型。针对庞大数据集带来的预测效率低下的问题,为了充分利用大数据带来的优势,提出一个预测蛋白质相互作用的深度学习框架。将一对蛋白质序列编码后分别馈送到嵌入层、长短期记忆神经网络和具有一个隐藏层的神经网络,然后首尾连接输出的向量,将其输入具有两个隐藏层的全连接层,通过softmax函数对未知蛋白质序列对进行预测。该网络结构能够学习顺序空间上氨基酸残基之间的短程和长程依赖性,并且能够提取出较为抽象复杂的特征。实验结果表明,本文的深度学习框架在人类蛋白质互作数据集五折交叉验证下的准确率高达98.9%,具有良好的预测效果。
其他文献
在我国市场制经济发展的进程中,国有企业对我国经济发展起到了显著的促进作用。但由于国有企业的一些自身特点,目前我国国有企业普遍存在着产权结构不合理、治理机制不健全、经营绩效不高等问题,所以国有企业与非国有企业的发展逐渐拉开了差距。同时很多国有企业因为固有的经营模式和结构,使其业务单一,抗风险能力低,并且缺乏创新动力,没有核心竞争力。为了解决国有企业目前存在的各种问题,促进国有企业高速健康的发展,我国
学位
集体企业是乡村振兴、实现共同富裕的重要市场主体,经过迭代发展和产业升级,村集体企业经营呈现多元化发展趋势。随着管理幅度和信息不对称程度的逐渐增加,如何有效实施财务管控、防范财务风险,保持村集体企业可持续健康发展是实现乡村振兴的关键。通过文献分析发现与村集体企业集团财务管控问题相关研究文献较少、关注不够,本文以K集团为案例,通过对案例企业进行实地调研、与集团高管及财务沟通访谈、填写并收集调查问卷等多
学位
中国互联网行业经过34年的蓬勃发展,目前已位居世界第一。在互联网和社会经济快速融合的同时,企业社会责任感的缺乏导致危机事件频发,成为许多互联网平台公司不可逾越的鸿沟,因此,我们要更加关注互联网平台企业社会责任的承担。但目前没有统一且系统的互联网平台企业社会责任评价体系,以至于难以促使对互联网平台企业形成激励作用,我们也无法对企业履行社会责任的水平进行合理有效地评价。本文结合ESG评价方法和互联网平
学位
随着我国经济总量的扩张加速了对石油消费规模的扩大,不可再生能源的供需矛盾突出,发展新能源汽车成为解决污染与能源消耗的重要措施,为此“十二五”国家发展规划将新能源汽车产业确立为我国战略性新兴产业,并强调到2020年底新能源汽车产业将成为国民经济先导产业,政府出台了一系列相关政策引导与推动新能源汽车产业的发展。随着行业的快速发展和横向并购的频繁发生,研究新能源汽车企业横向并购风险及其控制具有一定的现实
学位
为抑制房地产泡沫,恢复房地产的居住本质,防范房地产业可能引发的系统性风险,2016年中央经济工作会议首次提出“房住不炒”,之后国家始终坚持“房住不炒”这一政策总基调,从供需两端持续发力,从严规范房地产行业发展,增加了房地产企业生存和发展的风险。作为高投入、高杠杆、长周期的资金密集型行业,“房住不炒”等政策趋紧后,房地产企业的资金压力不断增大,营运资金作为企业持续经营和盈利的保障,其存在的风险不容忽
学位
伴随着企业成长,企业的规模也会不断扩大,且近年来经济下行,市场需求下滑,市场竞争日趋激烈,在这种情况下,企业都在通过各种方式加强自身在市场上的竞争能力或规避风险,其中部分企业选择通过并购增加对产业纵向价值链的控制,由于这些企业并购的动机并不相同,其希望取得的并购效果也存在差异,那么如何针对不同动机的并购行为进行评价,权衡并购行为的短期收益与长期收益、财务绩效与非财务绩效,避免管理层的短视行为,就成
学位
目的:通过数据挖掘对不寐食疗药膳的组方规律进行研究,构建辨证食疗方案,为不寐患者的个性化饮食调护和不寐食疗药膳产品开发提供理论依据和指导。方法:在文献整理和理论探讨的基础上,系统整理《中国药膳大辞典》和《中医食疗方全录》中关于不寐的古今食疗药膳方,建立相关数据库,运用Microsoft Excel2016和中医传承辅助平台(V2.5)对食疗药膳的原料及药性进行频数统计、关联规则和复杂系统熵层次聚类
学位
目的:对不寐食疗药膳的组方规律进行研究,以期为不寐患者的个性化饮食调护和不寐食疗药膳产品开发提供理论依据和指导。方法:系统整理《中国药膳大辞典》中关于不寐的古今食疗药膳,建立数据库,对食疗药膳原料的四气五味及归经进行频数统计,并运用中医传承计算平台(V3.0版)进行关联规则和聚类分析。结果:对278首不寐食疗药膳进行统计,原料使用频次最多的前5种为龙眼肉、大枣、枸杞子、酒、莲子。原料以性平、温,味
期刊
国内外建筑行业正处在大规模加固与改造阶段,纤维增强复合材料(fiber reinforced polymer,FRP)加固近几十年作为新型加固方法受到了加固工程领域的广泛关注。“双碳”背景下,其作为绿色环保材料的应用前景势必更加广阔。在加固工程中以钢筋混凝土梁结构的加固为例,被加固的钢筋混凝土梁存在安全问题——易发生剥离破坏,包括中间裂缝剥离与端部剥离(本研究记为I类与II类安全问题),其应用受到
学位
2010年中国经济总量跃居世界第二,随着中国社会经济的飞速发展,传统的粗放式经济发展方式难以为继。为了适应我国社会经济发展的客观要求,化解国际复杂局势的冲击,建设我国现代化经济体系的战略支撑。党的十八大明确提出实施创新驱动发展战略,走自主创新之路,推动企业技术创新,提高企业研发活动的积极性和主动性。山东省作为东部沿海经济大省,承载着国家发展和提高原始创新和集成创新的重托。在此背景下,对山东省规模以
学位