基于深度学习的蛋白质泛素化性质分类算法的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:adder2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,随着人工智能研究的再次兴起,深度学习方法也成为了学术界、工业界的焦点。深度学习作为传统机器学习中最前沿最高效的方法,在诸如ImageNet和Kaggle这样的机器学习竞赛中,多次取得了优异的成绩。这种方法本质上是在模仿了生物学中人类大脑的神经元机制来进行特征学习。其主要过程包括数据处理、模型训练、样本测试等等步骤来学习到最优的参数。现在,深度学习不仅仅是个理论概念,也深入到了各个领域当中,并得到了广泛的应用。如语音识别、人脸识别、智能机器人、智能诊疗等等都是深度学习方法的具体应用。蛋白质各种性质的研究是生物学上的重要课题,比如泛素过程的分类问题预测。蛋白质泛素化是广泛存在于真核细胞中的蛋白质的翻译后修饰。越来越多的研究表明,泛素化及其反向过程去泛素化,通过调节免疫系统中不同细胞类型的功能,在先天性和适应性免疫应答过程中起着关键的调节作用,从而影响人类的许多重大疾病的出现和治疗。蛋白质泛素化分类预测问题本质上是一个二分类问题,目前判断某条蛋白质是否具有泛素化过程这一研究,多是单纯依靠生物学实验,因此需要大量的人力物力,耗时长效率低不适合大规模检测。也因此截止到目前,在生物学最具权威性的蛋白质数据库网站Uniprot上只有1906个蛋白质被标注为具有泛素化过程。现有多数基于传统机器学习方法的研究虽有一定进展但准确率仍然较低,而深度学习是当前最前沿有高效的机器学习方法,所以本文使用全新角度从深度学习方法角度出发来进行蛋白质泛素化分类问题的实验研究。而且,本论文针对蛋白质泛素化性质分类问题,尝试使用蛋白质注释角度做分类预测,而非传统的蛋白质序列角度。另外,本文主要提出了两种数据处理方式,分别是KNN-SCORE和Multi-Hot。在模型选择上,本文使用卷积神经网络、全连接神经网络、WDL模型根据训练情况设计了五种模型,并在准确率、真阴性率、MCC、F1 Score等评价指标下对所有模型进行对比,通过表格及图片进行结果展示。
其他文献
词汇是组成语言最基本的材料,没有一定词汇量的积累,就不能进行语言交际。英语作为一门语言学科,想要学好,词汇教学占据着重要的地位。作者结合众多词汇应用实例和高考实例,
中国经济发展到现阶段,劳动力成本的上升和熟练劳动力供给的不足,已经越来越明显。劳动力技术水平的提高和劳动力整体素质的升级,也已经成为经济进一步发展的迫切要求。如果不从
中国历史绵延,留下了诸多古镇古村古民居,它们无不凝聚了丰厚的文化内涵和劳动人民的无限智慧,是人类与自然和谐统一、相互依存的具体体现。我市作为一座历史悠久、文化底蕴深厚
报纸
猪附红细胞体病是由猪附红细胞体引起的一种以黄疸和贫血为特征的猪的传染病,于1932年首次在印度发现,在我国20世纪70年代发现,但在90年代山东等地方先后发生,近年我国的局部
介绍了多波束前视声呐特性及其PC104处理机的功能;描述了避障系统的数据采集和传输方法;提出了用基于栅格图标的方法来完整描述声呐探测信息,从而构建出水下局部环境模型;采
新春佳节来临之际,习主席给“硬骨头六连”全体官兵回信,高度肯定全连官兵取得的成绩和进步,勉励大家牢记强军目标,传承红色基因,苦练打赢本领,把“硬骨头精神”发扬光大,把连队建设
报纸
假设每个家庭在跨代际间最大化其效用函数,效用依靠父母的消费和孩子的数量及质量。当从父母那里接受更多的人力及非人力资本的时候,孩子的收入将得到提高。他们的收入同样将
侧重分析了开源WebGIS平台的技术特点,并根据其成本低廉和良好的扩展性、部署的灵活性,提出采用开源平台构建中小型WebGIS应用的解决方案,对于普及GIS应用,促进地理空间信息共享
当前中国宗教界的慈善公益活动出现了较大的发展,但其引导存在如下问题:引导目标重视宗教的公益取向,忽视宗教的一体化发展;引导主体多元化,但合力不足;引导手段注重行政引导,但法制