论文部分内容阅读
近年的研究表明,蛋白质与核苷酸之间的相互作用与人类的各种疾病有着密切的关联,而蛋白质与核苷酸结合的绑定位点往往会成为药物设计的重要支撑点。从这点上来说,蛋白质-核苷酸绑定位点预测的意义重大。然而,单纯依赖生物学实验来获取蛋白质-核苷酸绑定位点情况的成本大,而且耗时长。因此,使用模式识别的方法来进行预测越来越重要。同时蛋白质-核苷酸绑定位点预测是一个典型的不平衡学习问题,因为整个序列中少数类(绑定残基)远少于多数类(非绑定残基)。可以通过采样方法来解决这个问题。本文就蛋白质-核苷酸绑定位点预测技术进行了深入研究,主要工作如下:(1)研究了蛋白质的特征提取。利用位置特异性迭代搜索算法(Position-Specific Iterative Basic Local Alignment Search Tool, PSI-BLAST)得到初始的位置特异性得分矩阵(Position Specific Scoring Matrix, PSSM),并用sigmoid函数对PSSM进行归一化。利用滑动窗口技术来提取蛋白质序列中残基的邻域特征作为该残基的特征,而得到的残基的邻域特征正好可以被看作是一幅图像,进而可以利用数字图像处理中的稀疏表示方法提取更为优质的PSSM特征。(2)研究了加权下采样和基于聚类的下采样两种采样方法。这两种采样方法都可以解决不平衡学习问题。加权下采样利用K近邻来计算训练样本的一个得分矩阵,并根据得分矩阵计算样本的权值,然后依据样本的权值来选择和正类样本一样多的负类样本,并将选择的负类样本与所有正类样本一起组成新的训练样本。基于聚类的下采样则先用C_均值算法对训练样本中所有的负类样本进行聚类,其中的C等于训练样本中负类样本个数与正类样本个数的比值,然后在每个聚类中随机选择一定比例的样本,并将选择的负类样本与所有正类样本一起组成新的训练样本。(3)研究了WUS-SVM和CUS-SVM两种预测模型。WUS-SVM预测模型是结合加权下采样和支持向量机形成的,而CUS-SVM预测模型则是结合基于聚类的下采样和支持向量机形成的。在NsitePred和BioLip两个标准数据集上分别做五重交叉验证实验和独立测试实验来检验两种预测模型的性能。实验结果表明,两种预测模型各自采用不同的下采样方法来解决不平衡学习问题,在一定程度上提升了预测性能。