论文部分内容阅读
现如今,随着人工智能研究的再次兴起,深度学习方法也成为了学术界、工业界的焦点。深度学习作为传统机器学习中最前沿最高效的方法,在诸如ImageNet和Kaggle这样的机器学习竞赛中,多次取得了优异的成绩。这种方法本质上是在模仿了生物学中人类大脑的神经元机制来进行特征学习。其主要过程包括数据处理、模型训练、样本测试等等步骤来学习到最优的参数。现在,深度学习不仅仅是个理论概念,也深入到了各个领域当中,并得到了广泛的应用。如语音识别、人脸识别、智能机器人、智能诊疗等等都是深度学习方法的具体应用。蛋白质各种性质的研究是生物学上的重要课题,比如泛素过程的分类问题预测。蛋白质泛素化是广泛存在于真核细胞中的蛋白质的翻译后修饰。越来越多的研究表明,泛素化及其反向过程去泛素化,通过调节免疫系统中不同细胞类型的功能,在先天性和适应性免疫应答过程中起着关键的调节作用,从而影响人类的许多重大疾病的出现和治疗。蛋白质泛素化分类预测问题本质上是一个二分类问题,目前判断某条蛋白质是否具有泛素化过程这一研究,多是单纯依靠生物学实验,因此需要大量的人力物力,耗时长效率低不适合大规模检测。也因此截止到目前,在生物学最具权威性的蛋白质数据库网站Uniprot上只有1906个蛋白质被标注为具有泛素化过程。现有多数基于传统机器学习方法的研究虽有一定进展但准确率仍然较低,而深度学习是当前最前沿有高效的机器学习方法,所以本文使用全新角度从深度学习方法角度出发来进行蛋白质泛素化分类问题的实验研究。而且,本论文针对蛋白质泛素化性质分类问题,尝试使用蛋白质注释角度做分类预测,而非传统的蛋白质序列角度。另外,本文主要提出了两种数据处理方式,分别是KNN-SCORE和Multi-Hot。在模型选择上,本文使用卷积神经网络、全连接神经网络、WDL模型根据训练情况设计了五种模型,并在准确率、真阴性率、MCC、F1 Score等评价指标下对所有模型进行对比,通过表格及图片进行结果展示。