论文部分内容阅读
细胞由细胞膜、细胞核、内质网等被称为“亚细胞”的各部分组成,亚细胞的功能由位于其中的蛋白质执行。蛋白质的亚细胞结构被叫做蛋白质的“亚细胞位置”。蛋白质必须被运送到适当的亚细胞位置才能正常发挥功能,否则会产生机体功能紊乱和疾病,因而准确的了解亚细胞定位信息对于深入了解蛋白质的功能、细胞生命活动等具有重要意义。同时,蛋白质数据本身的海量、多模态、关联性、不完整等特征,使蛋白质亚细胞定位问题成为生物信息学领域具有挑战性的研究热点。蛋白质亚细胞定位问题一般分为三个步骤,分别为特征提取、分类预测和算法评估。特征提取是最关键的一步。通过对蛋白质序列进行分析,提取主要特征,建立特征向量;分类预测是将特征提取的特征作为分类算法的输入送到不同的分类器中;算法评估是评估分类结果,判定特征提取方法和分类算法的优劣。本文围绕蛋白质亚细胞定位问题,主要进行特征提取方法和分类算法两个方面的研究。论文工作如下:(1)针对传统特征提取方法上的不足,本文提出三种新的基于重复信息测定的特征提取方法,分别为R-Dipeptide、I-PseAAC、PseAAC2。其中,R-Dipeptide通过窗口移动测定关键信息,并通过增加关键重复信息提取二肽特征;I-PseAAC在R-Dipeptide的基础上,计算了每个残基与其之后残基的理化性质之间的差异,与传统的PseAAC方法相比,在提取蛋白质位置信息上做出了调整;PseAAC2则在R-Dipeptide的基础上,计算了每个残基的整体理化性质、每个残基与其他残基整体理化性质的乘积来反映不同残基之间的特征差异。实验结果证明,本文的特征提取方法在增加关键重复信息、提取不同的位置信息和比较残基间的整体理化性质差异等方面优于传统特征提取方法。(2)引入卷积神经网络进行蛋白质亚细胞定位。卷积神经网络具有特征的自动提取和归纳能力,基于前文涉及的特征提取方法,本文利用卷积神经网络对蛋白质亚细胞定位特征进行二次提取,进一步精炼特征,提高分类精度。与不同分类器进行实验比较,卷积神经网络算法在预测精度上优于多标签K近邻算法和支持向量机算法。(3)对卷积神经网络的一阶梯度下降训练算法进行了改进。实验结果显示,使用二阶算法的卷积神经网络均方误差的下降速度快于使用一阶算法的卷积神经网络。本文通过特征提取方法与分类算法两方面的研究,有效提高了蛋白质亚细胞定位问题的预测精度。