论文部分内容阅读
目的:构建高灵敏性、高精度、高特异性的载脂蛋白及其功能的预测模型和预测工具。
方法:(1)构建当前包含信息最全的载脂蛋白及其亚家族基准数据集,其中包含270个载脂蛋白序列(阳性样本)和535个非载脂蛋白序列(阴性样本)以及11个亚家族的序列。(2)整合利用188D(188-dimensional feature vectors),二肽组成(Dipeptide Composition,DPC),伪氨基酸组成(pseudoamino acid composition,PseAAC)和k间隔氨基酸对的组成(k-spaced amino acid pairs,CKSAAP)四种蛋白质序列描述符及其不同组合,对载脂蛋白和其亚家族蛋白序列的氨基酸组成、空间结构、理化性质等多维度信息进行表征。(3)为了降低特征向量的噪声和提高模型的容错能力,采用方差分析(analysis of variance,ANOVA)对特征进行排序,并利用增量特征选择方法(incremental feature selection,IFS)获得最优特征子集。(4)利用支持向量机(Support vector machine,SVM)、随机森林(Random Forest,RF)和XGBoost(Extreme Gradient Boosting)等三种机器学习算法,分别构建载脂蛋白及其亚家族的分类模型,并基于10-折交叉验证对分类模型的性能进行评估。在最佳模型基础上,开发基于perl、php、python程序的具有用户友好界面的载脂蛋白及其功能类型识别的网络服务。
结果:通过比较三种分类器算法的效能,最终选择SVM分类器用于构建载脂蛋白及其亚家族分类的预测模型。经10-折交叉验证,由PseAAC和188D特征组合所构建的识别载脂蛋白与非载脂蛋白的SVM预测模型性能最好,准确率达到97.76%,灵敏度为97.04%,特异性为98.13%。此外,由CKSAAP(k=3)、188D和DPC特征组合所构建的载脂蛋白亚家族的SVM分类模型在10-折交叉验证中整体准确率达到97.04%。其中ApoD、ApoL达到最高准确率100.00%,ApoA准确率其次(98.88%),ApoB、ApoC以及ApoE准确率分别为95.45%,95.45%和93.55%,而Apoelse是ApoF、ApoH、ApoM、ApoN、ApoR等五个亚家族的合集,准确率略低为90.00%。基于最佳预测模型,还搭建了一个便利的在线预测器ApoPred,http://tang-biolab.com/server/ApoPred/service.html,为载脂蛋白研究人员提供基准数据集的下载以及相关预测服务。
结论:信息准确、全面的基准数据集为模型构建奠定了序列基础,多尺度特征的整合能显著提高载脂蛋白及其亚家族分类模型的预测性能,基于ANOVA和IFS的特征选择方法能有效避免维数灾难,而SVM分类算法比RF和XGBoost等基于决策树的分类模型更适合载脂蛋白的预测场景,因此本研究构建了高质量的载脂蛋白及其亚家族的预测模型和在线预测工具,可为相关疾病的载脂蛋白功能研究及药物靶标开发提供重要参考。
方法:(1)构建当前包含信息最全的载脂蛋白及其亚家族基准数据集,其中包含270个载脂蛋白序列(阳性样本)和535个非载脂蛋白序列(阴性样本)以及11个亚家族的序列。(2)整合利用188D(188-dimensional feature vectors),二肽组成(Dipeptide Composition,DPC),伪氨基酸组成(pseudoamino acid composition,PseAAC)和k间隔氨基酸对的组成(k-spaced amino acid pairs,CKSAAP)四种蛋白质序列描述符及其不同组合,对载脂蛋白和其亚家族蛋白序列的氨基酸组成、空间结构、理化性质等多维度信息进行表征。(3)为了降低特征向量的噪声和提高模型的容错能力,采用方差分析(analysis of variance,ANOVA)对特征进行排序,并利用增量特征选择方法(incremental feature selection,IFS)获得最优特征子集。(4)利用支持向量机(Support vector machine,SVM)、随机森林(Random Forest,RF)和XGBoost(Extreme Gradient Boosting)等三种机器学习算法,分别构建载脂蛋白及其亚家族的分类模型,并基于10-折交叉验证对分类模型的性能进行评估。在最佳模型基础上,开发基于perl、php、python程序的具有用户友好界面的载脂蛋白及其功能类型识别的网络服务。
结果:通过比较三种分类器算法的效能,最终选择SVM分类器用于构建载脂蛋白及其亚家族分类的预测模型。经10-折交叉验证,由PseAAC和188D特征组合所构建的识别载脂蛋白与非载脂蛋白的SVM预测模型性能最好,准确率达到97.76%,灵敏度为97.04%,特异性为98.13%。此外,由CKSAAP(k=3)、188D和DPC特征组合所构建的载脂蛋白亚家族的SVM分类模型在10-折交叉验证中整体准确率达到97.04%。其中ApoD、ApoL达到最高准确率100.00%,ApoA准确率其次(98.88%),ApoB、ApoC以及ApoE准确率分别为95.45%,95.45%和93.55%,而Apoelse是ApoF、ApoH、ApoM、ApoN、ApoR等五个亚家族的合集,准确率略低为90.00%。基于最佳预测模型,还搭建了一个便利的在线预测器ApoPred,http://tang-biolab.com/server/ApoPred/service.html,为载脂蛋白研究人员提供基准数据集的下载以及相关预测服务。
结论:信息准确、全面的基准数据集为模型构建奠定了序列基础,多尺度特征的整合能显著提高载脂蛋白及其亚家族分类模型的预测性能,基于ANOVA和IFS的特征选择方法能有效避免维数灾难,而SVM分类算法比RF和XGBoost等基于决策树的分类模型更适合载脂蛋白的预测场景,因此本研究构建了高质量的载脂蛋白及其亚家族的预测模型和在线预测工具,可为相关疾病的载脂蛋白功能研究及药物靶标开发提供重要参考。