论文部分内容阅读
随着蛋白质测序技术的不断进步,人类对蛋白质的序列和结构的认识得以不断深入。但快速增加的蛋白质序列数据,给蛋白质结构和功能的自动预测提出了巨大挑战。在大量的蛋白质中,DNA结合蛋白质是指一类可与DNA结合产生复合物的蛋白质,是细胞各项生命活动不可缺少的物质。对DNA结合蛋白质的预测可以快速有效地发现DNA结合蛋白质,促进药物蛋白质靶标的快速识别以及计算机辅助药物设计的研究。DNA结合蛋白质的预测问题大体可分为两类,即结构已知的DNA结合蛋白质预测和结构未知的DNA结合蛋白质预测。应用已知结构特征进行预测可获得较高的预测正确率,但是由于生物体蛋白质组中绝大部分蛋白质的结构未知,因此此类方法不适用于高通量蛋白质功能预测。本文重点研究结构未知的DNA结合蛋白质预测问题,即基于序列信息的DNA结合蛋白质预测。本文从蛋白质向量化方法和机器学习的角度研究DNA结合蛋白质预测。本文的主要工作包括:第一,研究了基于Top-n-gram的蛋白质向量化方法在DNA结合蛋白质预测上的应用。在此部分,首先研究了该方法将不同维数的蛋白质序列频率谱转化为相同维数的特征向量的具体步骤,最后计算了该方法产生的各特征的判别贡献权重并分析了其中的重要特征;第二,提出了一种基于位置特异性分数矩阵距离转换(Position-Specific Scoring Matrix DistanceTransformation,PSSM-DT)的蛋白质向量化方法,用于DNA结合蛋白质预测。实验结果表明PSSM-DT方法不仅能够提高预测的性能,而且抽取出的特征具有清晰的生物学解释。结合上述两种蛋白质向量化方法建立了一种组合向量化方法,实验结果显示组合向量化方法进一步提高了预测性能。第三,研究了基于集成学习和上述两种蛋白质向量化方法的DNA结合蛋白质预测方法。实验结果显示该预测方法的性能明显优于现有已知系统。同时,实验分析显示本文提出的两种蛋白质向量化方法具有互补性,当二者与基于集成学习技术的预测方法结合使用时可获得最佳性能。