论文部分内容阅读
实验确定抗菌肽类似物生物活性和蛋白质磷酸化位点费时费力费钱,因此根据现有数据采用定量序效模型(Quantitative Sequence-Activity Model, QSAM)研究抗菌肽序列与生物活性间关系、建立自动化预测蛋白质磷酸化位点方法非常重要,能为多肽类药物的设计与合成和蛋白质磷酸化组学研究提供指导信息。特征提取和建模方法是抗菌肽QSAM与蛋白质磷酸化位点预测的关键步骤。多肽/蛋白质一级结构即氨基酸序列决定其结构与功能,且高级结构甚难测定,因此在多肽/蛋白质结构与功能预测时,直接基于氨基酸序列提取特征更具实际应用价值。基于统计学理论与结构风险最小的支持向量机(Support Vector Machine, SVM)是机器学习领域的集大成者,包括支持向量分类(Support Vector Classification, SVC)和支持向量回归(Support Vector Regression, SVR)。SVM在大样本时训练建模极为耗时,松弛变量核密度估计(Relaxed Variable Kernel Density Estimation Algorithm, RVKDE)是大训练样本时SVM的合适替代者。本文在简要介绍现有多肽/蛋白质序列特征提取方法的基础上,发展了几种新的序列特征提取方法,基于SVM或RVKDE将其应用于抗菌肽QSAM建模或蛋白质磷酸化位点预测,结果报道如下:1.抗菌肽QSAM建模。本文整体考虑多肽/蛋白质一级结构,提出了三种仅基于氨基酸序列、计算简便、适于不等长氨基酸序列、可捕获多肽/蛋白质序列上下文关联特征的序列特征提取新方法:氨基酸理化性质地统计学关联(Geostatistics-Amino Acids531properties, GS-AA531)、多尺度组分与关联(Multi-Scale Component and Correlation, MSCC)、氨基酸理化性质地统计学关联与多尺度组分的组合GS-AA531-MSC。将其应用于两个抗菌肽体系(等长肽与不等长肽)的序列特征提取中并以SVR建立QSAM模型。模型的拟合、留一法、独立测试结果表明,结合特征选择的新方法GS-AA531与GS-AA531-MSC预测精度明显稳定优于其他参比方法,在多肽QSAM研究中有广泛应用前景。2.蛋白质磷酸化位点预测。蛋白质磷酸化作为一种极为重要的蛋白质翻译后修饰,几乎参与了生物体内的所有生命活动过程。本文提出了统计序列外部特征的统计差表(Statistical Difference Table, SDT)、统计序列内部特征的多尺度组分与关联特征(MSCC)与统计差的组合特征MSCC-SDT等两种新的多肽/蛋白质序列特征提取方法,基于RVKDE或SVC建模,将MSCC、SDT、MSCC-SDT三种特征提取方法应用于蛋白质磷酸化位点预测研究中。在经典数据集Phospho.ELM上的预测结果表明,基于三种特征提取方法的模型预测性能分别是MSCC-SDT>MSCC>SDT,与AutoMotif Server AMS, NetPhos, DISPHOS, PHOSIDA和Scansite等几种激酶独立的在线网站预测结果比较:MSCC-SDT稳定优于所有在线网站预测结果,MSCC优于大部分网站结果,SDT仅优于少数网站结果。因此综合序列内部特征(MSCC)与外部特征(SDT)的组合预测方法更适合于蛋白质磷酸化预测研究。