机器学习算法在蛋白质结构预测中的应用

来源 :江南大学 | 被引量 : 0次 | 上传用户:tzsxf668
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的实施和生物科学技术的发展,生物信息学的发展速度相当快,它利用计算机科学技术解决生物学中的各种问题。计算机被用于收集、存储和分析生物信息以及生物遗传信息,然后这些信息就可以被用于以基因为基础药物的研究与开发。继基因组学和转录组学之后,蛋白质组学是生物信息学系统的主要研究课题。它是对特定蛋白质组的综合性研究,包括蛋白质在细胞运行过程中的改变,以及蛋白质间的相互作用。随着蛋白质测序技术和X-射线晶体衍射技术等试验技术的发展,大量的蛋白质序列和结构数据很容易被获得,且蛋白质功能分析方法日益成熟,使得我们可以充分利用机器学习方法,学习已知的蛋白质序列和结构数据中的规律,预测未知的蛋白质的结构和功能。本文采用机器学习方法中效率最高的深度学习算法(deep learning)来对蛋白质组学中蛋白质的相互作用预测和蛋白质的二级结构预测两大问题进行了深入的研究。本文主要研究内容如下:1)提出了一种改进的深度玻尔兹曼机(DBM)模型来预测蛋白质的相互作用,为了避免采用sigmoid或tanh激活函数在深度网络中出现过饱和的问题,采用ReLU激活函数改进的玻尔兹曼机(RBM),使网络具备稀疏性,从而避免模型过拟合,加快收敛速度。网络结构采用了两层RBM组成的DBM模型,同时,采用多尺度特征组提取和自协方差编码方法结合的方法编码序列特征,经过实验证明该预测模型比其他的方法能更加精确地预测蛋白质的相互作用。2)针对蛋白质二级结构预测中人工提取特征不精确和成本高的问题,提出了一种基于卷积神经网络的蛋白质二级结构预测方法。首先,利用蛋白质中的20种氨基酸来量化待预测的蛋白质原始序列,得到输入的二维矩阵。然后,利用一维卷积对量化后的二维矩阵进行卷积提取蛋白质序列的特征,其中卷积神经网络预测模型包含五层卷积层和三层全连接层的网络结构,同时为了减少数据的过拟合,在全连接层引入了Dropout的方法。根据具体的预测问题,通过理论分析和多次实验验证该预测模型在蛋白质二级结构预测时具有预测优势。3)针对卷积神经网络在提取特征时的非时序问题,采用了循环神经网络中的双向长短记忆神经网络(BLSTM)结构作为预测模型,来预测蛋白质的二级结构。预测模型包含一层BLSTM,两层全连接层和一层softmax分类层,首先利用BLSTM中隐藏层的正向递归和反向递归模块,来获取蛋白质序列中的上下文的特征信息,且其网络结构中特殊的记忆单元能记忆序列中长距离的氨基酸间的相互关系,从而增强了提取的序列特征的有效性。实验结果证明其预测的效果是比较好的。
其他文献
对原塞拉门安装支架的悬臂支撑结构进行了设计优化,同时对塞拉门安装支架及焊缝强度进行有限元计算分析,确保安装支架能够支撑塞拉门安全可靠运行。
氨基酸序列编码问题一直是在蛋白质结构预测中导致算法输入空间较大的主要原因。只有对氨基酸序列进行更好的编码,才能为后续进行计算机分析打下基础。提出并实现了综合考虑
高等院校是培养创新型人才的重要基地,创新能力的养成是建立在理论知识和实践技能培养基础之上的,而实训是培养实践技能的有效途径之一。为了培养学生良好工作习惯,在案例开发实
随着互联网技术与云计算的发展,二者被引进了社交网络、网络购物、医疗服务等新的应用领域。人们对海量数据管理提出了新的要求,业界专家把可扩展性、弹性、容错性、自管理性
目的探讨罹患慢性胰腺炎且伴有胰腺外分泌不足的患者应用胰酶肠溶胶囊治疗效果及预后恢复情况。方法选取罹患慢性胰腺炎且伴有胰腺外分泌不足的患者80例,均为2018年2月~2019
目的比较右美托咪定复合罗哌卡因中低位硬膜外麻醉与静脉泵注右美托咪定联合罗哌卡因中低位硬膜外麻醉临床效果,分析两种不同给药途径的优劣点,以期指导临床用药。方法选择某
采用理论分析与ADAMS仿真相结合的方法,对某鼓型地铁车辆客室塞拉门的运动学规律及影响其关门性能的主要因素进行了分析,得出以下结论:由车门长导柱与携门架轴承之间摩擦系统
过去的2014年是餐饮业全面结合互联网的一年,移动互联网的高速发展和餐饮O2O时代的来临,为国内餐饮业出现具有强劲国际竞争力的餐饮巨头提供了机遇,各种互联网思维的餐饮模式企
目的探讨度洛西汀对抑郁症患者血清microRNA和细胞因子水平的影响。方法选取某院收治的抑郁症患者50例(抑郁症组),同期健康查体人群50例(对照组),采用real-time PCR及ELISA法
本文简要介绍了青海省某山区公路K36滑坡的概况,结合地形地貌、地层岩性、变形特征等综合分析了滑坡的性质,采用传递系数法对滑坡稳定性进行了评价,认为该滑坡浅层处于缓慢滑