论文部分内容阅读
生物学中心法则包括DNA转录、RNA翻译和蛋白质表达。选择性剪接是转录后期的关键步骤,剪接过程的正确执行很大程度在于剪接位点的正确识别,它使得一种编码蛋白质的基因可以产生多种转录变体。因此,错误的剪接位点经常会导致各种疾病的发生。选择性剪接通过产生不同的剪接变体翻译成不同特定生物功能的蛋白产物,而蛋白质的变异或者某些蛋白质发生异常相互作用也同样会导致疾病甚至癌症的发生。鉴于剪接位点及蛋白质相互作用预测在生物领域的重要性,本论文着重基于深度学习技术来研究剪接位点和蛋白质相互作用这两个问题的预测方法,主要内容包括:1.剪接位点及剪接模式的探索对于理解基因转录过程非常重要。现有的计算方法在剪接位点预测问题上取得了较大成功,但是不可避免存在特征提取、模型可解释性差等缺点,由此本文提出基于深度卷积神经网络来预测剪接位点,该网络主要由剪接位点预测模块和揭示剪接位点序列模式的模型解释模块组成。和传统机器学习方法相比,剪接位点预测模块在六个不同公共供体/受体剪接位点数据源上取得了更精确的分类性能。此外,为了解释深度学习的识别过程,模型解释模块对卷积特征进行了可视化,展现了特征映射从底层到高层的抽象过程,相关下游分析主要包括:(1)motif识别;(2)卷积核分析;(3)剪接模式的探索。2.RNA经过选择性剪接事件后会产生不同的mRNA,这些mRNA将会被翻译成对应的蛋白质。我们知道,生物体内各种生命活动的执行主要依赖于蛋白质及其相互作用的正确执行。因此,蛋白质相互作用的研究不仅有助于探索生物体内各个生命过程的调节机制,更有助于促进相关药物的研发及疾病的控制。当前大量的蛋白质相互作用预测方法主要流程是依据蛋白质序列和结构信息提取特征、结合相关机器学习方法建立模型进行预测。然而,人为抽取的特征通常有许多缺陷,例如需要有非常专业的领域知识。更麻烦的是,所提取的特征在很多情况下并不能全面反映蛋白质本身所具有的性质,由此接下来依赖于手工提取特征的机器学习模型对蛋白质相互作用预测的准确性也不高。自然语言处理中的Word2vec能够对文档中的词语结合上下文进行描述,由此我们结合Word2vec模型以数据驱动的方式进行训练、自动获取高质量特征表示的优势和深度信念网络处理高维、大规模数据时自动提取特征的特点,设计基于Word2vec和深度信念网络的蛋白质相互作用预测方法。方法在酿酒酵母核心数据集、人类蛋白数据集以及五个独立数据集上的测试表明了使用Word2vec方法表示蛋白质残基、深度学习技术作用于蛋白质相互作用分类问题上的可行性。简言之,在剪接位点分类研究中,方法侧重利用卷积神经网络自动进行深度特征提取的能力,摒弃手动提取特征的弊端,结合深度卷积网络探讨了模型背后的剪接位点识别机制,弥补了机器学习中模型解释相对薄弱的缺陷。而在蛋白质相互作用预测研究中,则是在Swiss-prot数据库上训练Word2vec模型来捕获蛋白质序列中的内在关系,展示了一种新型的将残基表示成低维稠密向量的表示方法,并结合深度信念网络用于蛋白质相互作用预测。