论文部分内容阅读
当蛋白质序列中的任意两个残基的β碳原子(甘氨酸为α碳原子)之间的空间距离小于8时,可认为这两个残基是接触的。而蛋白质残基酸接触图表达了序列中间隔不小于六个残基的所有接触信息[1]。残基酸接触图包含有蛋白质空间结构的重要信息,是蛋白质三维结构的一种二维表达形式[2],因此残基接触图成为蛋白质高级结构的预测的关键一步[3]。残基接触图的预测是一个两类问题,但通常非接触状态的残基对在数目上远远多于接触的残基对,由此导致的不平衡性一直是残基接触图预测中的一大挑战,我们提出了一个多类策略可以显著提高预测性能。按照残基对的空间距离将其划分为"C","N","M"和"L"四种状态,在改善不平衡性的同时也为预测结果提供了二次校正的机会。接触位置权重矩阵(Contacting Position Weight Matrix,CPWM)是我们提出一种新的变量,通过序列比对和结构比对获得。该变量基于序列和结构的保守性,从二维角度表达了来自模板库的残基接触知识。本文用接触位置权重矩阵等作为变量建模,有效提高了预测精度。