论文部分内容阅读
蛋白质是生命活动的物质基础,在细胞生命活动中扮演着十分重要的角色。绝大部分蛋白质通过与其他的蛋白质发生互作从而执行多样的生物学功能。蛋白质相互作用是蛋白质组学研究的热点和难点之一,正确地识别蛋白质相互作用不仅有助于更全面地理解活细胞的生物分子生理过程,而且对于新药物的研发和疾病机制的探索等方面都具有重要的意义。基于传统湿实验识别蛋白质相互作用的技术存在费时,覆盖度有限且价格昂贵的缺点。近年来,研究者已经研发了一些利用机器学习和蛋白质氨基酸序列识别蛋白质相互作用的方法。但是这些方法普遍存在以下不足:1)蛋白质氨基酸序列向量化编码方法无法充分提取互作特征;2)忽视多种氨基酸序列编码和分类器间的互补信息,即仅使用单个编码算法和单个分类器预测蛋白质互作;3)蛋白质非相互作用数据集缺失或包含有大量噪声。为此,本文开展了如下工作:(1)针对蛋白质序列特征编码算法不能充分刻画氨基酸序列的连续和不连续区域中残基间的互作的问题,本文提出了一种基于局部三联体特征编码算法(LCTD:Local Conjoint Triad Description)和深度神经网络的方法—DNN-LCTD。局部三联体特征编码算法(LCTD)集成了三联体特征编码算法(CT:Conjoint Triad Descriptor)和局部特征编码算法(LD:Local Descriptor)的优点,因此它能更好的描述氨基酸序列连续和不连续区域隐藏的互作信息。深度神经网络(DNNs)不仅可以从原始数据中自动学习稳定的特征,而且还能描述和刻画数据的层次表示。DNN-LCTD在酵母菌蛋白质相互作用数据集上取得了优越的性能且仅耗时718秒,其中准确率(accuracy)达到93.12%,精度(precision)达到93.75%,AUC(Area Under Curve)达到97.92%。这些实验结果显示,DNN-LCTD能够高效且准确地预测蛋白质相互作用,同时还进一步证明了LCTD编码算法的优越性。(2)针对现有蛋白质相互作用预测方法忽略了多种氨基酸序列编码和分类器间互补信息的问题,本文提出了一种基于集成深度学习和集成蛋白质序列编码算法的分类方法—EnsDNN。EnsDNN首先分别利用自协方差特征编码算法(AC:auto covariance descriptor),LD,多尺度连续不连续局部特征编码算法(MCD:Multi-scale Continuous and Discontinuous local descriptor)编码氨基酸序列间的互作模式。然后基于每个特征编码算法训练不同配置的DNNs。最后为了利用AC,LD,MCD编码算法和不同DNNs间的互补信息,EnsDNN利用一个集成预测器自动地为每个DNNs分类器分配权重,并进行蛋白质互作预测。在酵母菌蛋白质数据集上,EnsDNN取得了优越的性能,准确率(accuracy)达到95.29%,召回率(recall)达到95.12%,精度(precision)达到95.45%。(3)针对蛋白质非相互作用数据集缺失或包含有大量噪声的问题。本文提出两种生成高质量非相互作用数据集的方法—NIP-SS和NIP-RW。NIP-SS和NIP-RW分别基于序列相似度和图上的随机游走的方法选择蛋白质非相互作用对。NIP-SS首先计算互作数据集中各蛋白质间的序列相似度,然后选取前m个最不相似的蛋白质对作为非相互作用对,同时控制已选择非互作用对的蛋白质的度分布与正数据集中的蛋白质度分布相似。NIP-RW则在蛋白质相互作用网络上进行k步随机游走,最后从更新后的邻接矩阵中选择无连接的蛋白质对作为非相互作用的数据。考虑到效率问题,本文使用AC编码氨基酸序列且使用深度神经网络作为分类器模型。大量的实验结果表明相较于其他已经存在的蛋白质非相互作用数据集生成策略,NIP-SS和NIP-RW可以生成更高质量的非相互作用对。实验结果还表明基于NIP-SS和NIP-RW策略生成的非相互作用数据集的DNNs模型的预测性能将更加准确和健壮。