论文部分内容阅读
人类免疫缺陷病毒(Human Immunodeficiency Virus, HIV)是获得性免疫缺陷综合症(Acquired Immunodeficiency Syndrome, AIDS)的罪魁祸首。理解HIV蛋白酶(HIV Protease, HIV-PR)的剪切特异性对研发蛋白酶抑制剂类药物至关重要,运用模式识别的方法预测HIV-PR剪切位点可以达到这一目的。本文通过特征选择并配合分类器设计方面的工作,进行八肽序列可剪切性重要位点的研究,并在保证预测泛化能力的前提下提高预测性能。本文同时进行了基于相似度的八肽序列建模探索,提出一种基于无空位全序列比对的相似度以描述样本间的关系,并以此为基础进行HIV-PR剪切位点预测。本文内容主要分为以下三部分:第一,针对HIV-PR剪切位点预测改进CAFS (Constructive Approach for Feature Selection)特征选择算法,实现结合人工神经网络结构优化的特征选择。一方面,实现了特征降维,简化特征空间;另一方面,自动决定神经网络隐藏层节点个数,实现神经网络结构优化,从而确保其泛化能力,达到提高预测性能的目的。通过准确率、敏感度、特异度、MCC (Matthews Correlation Coefficient)和AUC (Area Under Curve)五种指标评价预测效果。结果表明,通过该方法得到的特征子集具有优秀的预测性能,将得到的特征子集进行决策融合后使预测性能得到大幅提高。此外,通过分析得到的特征子集,确定八肽序列中靠近断裂点的P1、P1’、P2和P2’位点对决定八肽序列的可剪切性起到重要作用。第二,针对HIV-PR剪切位点预测改进BPFS (Binary Projection Feature Selection)特征选择算法,将其用于本文的研究,成功地简化了特征空间和分类器结构,保证了分类器的泛化能力。同时,对支持向量机(Support Vector Machine, SVM)进行参数优化以提高预测性能。将得到的特征子集进行特征融合,并利用优化参数后的SVM进行预测,得到了出色的预测性能。试验结果表明,该工作得到的结果优于当前基于特征提取的HIV-PR剪切位点预测研究。第三,提出基于无空位全序列比对的相似度,并用于HIV-PR剪切位点预测。该相似度能很好地描述序列样本间的关系,并以此为基础实现HIV-PR剪切位点预测。基于替换矩阵计算不同样本间的相似度,进而得到相似度矩阵,利用此矩阵并结合使用SVM得到了出色的预测性能。这表明,基于相似度进行HIV-PR剪切位点预测的思路是有效