论文部分内容阅读
蛋白质是生命活动的直接执行者,蛋白质之间的相互作用是蛋白质实现其功能的重要途径之一,因此构建蛋白质相互作用(protein-protein interaction, PPI)网络是了解分子生物功能、洞悉细胞生命规律的前提,也是研究生物体内疾病的产生与发展、进而从事药物分子靶标识别的关键。蛋白质相互作用预测方法是近年来生物信息学家关注的一个热点问题,它可以有效克服生物实验检测方法周期长、代价昂贵、假阳性率高的缺点。而对称性预测、核函数的选择是基于机器学习核方法进行蛋白质相互作用预测的两个关键因素,它直接关系到预测模型的有效性及准确性。 本文以蛋白质相互作用的对称性为切入点,研究了pairwise核在保证蛋白质相互作用对称预测方面的必要性,揭示了传统核方法以及传统反例数据集对蛋白质相互作用预测的偏置影响,提出了解决偏置的方案及算法。在此基础上,将无偏置预测模型应用于大豆物种的蛋白质相互作用预测,取得了较好的效果。 第一,揭示了传统核方法在蛋白质相互作用预测过程中对蛋白质次序的依赖偏置,在充分分析现有pairwise核函数构建规律的基础上,提出了一种新的用以保证蛋白质相互作用对称预测的pairwise核函数,并利用其构建了一种多核组合模型,较之已有的方法,该模型具有更高的预测准确率。 蛋白质相互作用具有典型的对称特点,即“蛋白质A与B相互作用”等同于“蛋白质B与A相互作用”。在传统的机器学习方法中,当蛋白质以顺序拼接方式构成训练/测试样本时,普通核方法由于无法识别一个样本由两个蛋白质组成的事实,从而对蛋白质的次序变得较为敏感,由此产生预测偏置。这种偏置表现为分类器可能产生“蛋白质A与B相互作用”而“蛋白质B与A不相互作用”的相悖结论。 Pairwise核克服了传统核以样本作为相似度度量单位的局限,采用蛋白质作为相似度度量单位,有效保证了蛋白质相互作用预测的对称性。本文强调了pairwise核在实现对称预测方面的必要性,总结了现有的几种pairwise核函数在对称性、正定性、均衡性方面的一般特点,分析、提炼了它们在改善预测性能方面的一般规律。在此基础上,提出了一种新的pairwise核函数——AMPK(Arcsin Maximum Pairwise Kernel),并分别基于Cosine核、拉普拉斯核构建了AMPK的多核组合模型,该模型在蛋白质复合体相互作用预测中取得了比已有的核方法更优的预测性能。 第二,揭示了在简单序列特征(三联氨基酸)的传统数据集上,采用pairwise核方法进行蛋白质相互作用预测存在严重偏置。提出了一种构建合理反例集的方法,从而使分类器的预测性能够得到公正、客观地评价。 由于传统方法所采用的正、反例数据集分别具有无标度(scale-free)网络以及随机网络性质,一部分称之为hub结点的蛋白质在正、反例集中出现次数差异较大,形成所谓“强势样本”。受训练集中“强势样本”的影响,pairwise核分类器倾向于将含有hub结点的测试样本预测为正例、而将含有非hub蛋白质的测试样本预测为反例——这种偏置效应在基于简单序列特征(即三联氨基酸)的数据上表现得尤为明显,从而导致对分类器预测性能过于乐观的估计。 基于此,本文提出了一种针对正例集无标度网络结构的、以“平衡随机采样”方式构建合理反例集的方法。通过保证每个蛋白质在正、反例集中出现的次数基本一致来消除正、反例数据集的结构差异。在合理反例集上,分类器的预测性能可以得到公正、客观的评价。最后证明了复杂序列特征(Pfam域)对预测偏置的影响程度以及它在预测蛋白质相互作用中的积极贡献。 第三,首次基于新近测序的大豆基因组数据,将传统的同源PPI推理方法与本文的无偏置pairwise核预测模型相结合,推理、预测得到10 426条大豆蛋白质相互作用数据。 大豆蛋白质相互作用网络构建是大豆基因组测序工作完成以后的一项重要任务。本文首次以大豆基因组数据为来源,采用同源PPI(interolog)推理方法与基于域特征的pairwise核预测方法相结合的方式,得到上万条大豆蛋白质相互作用数据。首先,以拟南芥、酵母、人类三个源物种的PPI为源数据,寻找它们在大豆物种中的同源PPI,据此得到大豆蛋白质相互作用候选集;然后,提出跨物种的训练/测试模式,利用域及其相互作用在物种间表现出的保守性,在源物种数据上建立关于InterPro域的无偏置pairwise核预测模型,而后将预测模型应用于大豆PPI候选集,以筛除其中的假阳数据。交叉验证结果表明,预测结果具有较高的可信性,从而表明本文所采用的方法在新近测序物种的蛋白质相互作用预测方面具有较高的参考价值。最后分析了大豆蛋白质相互作用复合体的抗性功能,发现了大豆抗性基因/蛋白质之间的相互作用规律。