论文部分内容阅读
人类基因组计划的实施,对生命科学的研究进入后基因组时代,蛋白质组学作为生命科学研究进入后基因组时代的里程碑,是生命科学研究的核心内容之一。蛋白质作为蛋白质组学主要研究对象,对它结构和功能破译是蛋白质组学的最终目标。而蛋白质分类作为蛋白质组学研究领域的一个重要分支和基础问题,是生物信息学的研究热点,本文基于特征工程技术对蛋白质分类这一课题进行研究,展开了两个蛋白质分类的专题,具体研究内容如下:1.提出基于SVM和多特征组合的高尔基体蛋白质类别预测方法,它组合了Pse KNC,Pse PSSM,6)-separated-bigrams-PSSM三种特征抽取方法,并使用Adaboost Classifier算法从Pse KNC中选择出最优的特征,得到329个特征,随后与Pse PSSM,6)-separated-bigrams-PSSM组合得到769维向量,然后,使用Random-SMOTE来平衡训练集,最后使用支持向量机(SVM)算法来区分cisGolgi蛋白质和trans-Golgi蛋白质,我们方法最终在jackknife验证、独立测试集验证和10折交叉验证中获得的准确率分别为96.5%、96.5%和96.9%,是目前最好的方法。表明本文提出的方法能够显著提高高尔基体蛋白质分类任务的预测精度。2.提出基于集成学习和PSSM的VI型分泌系统效应蛋白(T6SEs)类别预测方法,我们收集了一个新的独立测试集,并构建了一个集成了六个基分类器的集成分类器来识别T6SEs。它使用k-separated-bigrams-PSSM进行蛋白质序列特征抽取,然后使用SMOTE平衡训练集,最后将训练好的集成学习器用来预测目标序列的类别标签。10折交叉验证和独立测试集验证证明所提方法是最有效和最鲁棒的T6SEs预测方法。与现有方法相比,提出的方法在准确率(ACC)和特异性(SP)上都有很大的提升,证明了本文提出方法能有效地提高T6SEs分类任务的预测精度。