论文部分内容阅读
蛋白质是一种构成细胞的重要有机大分子,它参与着机体内所有的重要物质的组成。而蛋白质的生物功能经常是以成对的形式进行作用的,所以构建蛋白质相互作用网络已经成为生物信息领域的重要研究热点。通过收集相互作用的蛋白质信息和构建蛋白质的相互作用网络有利于理解蛋白质相互作用的机理,从而促进关于人类疾病病理研究和药物研发的发展。提出一种仅基于蛋白质序列信息的用于大规模预测蛋白质相互作用的计算模型尤为重要。特征向量抽取和分类预测是蛋白质相互作用预测模型的主要且关键的两大步骤。作为预测模型的第一部分,特征抽取方法能让原始的蛋白质序列转换成大小相等的特征向量。现存流行的特征抽取方法(如K-MER和PseAAC)往往只保留蛋白质序列的顺序信息而没有额外地考虑氨基酸的物理化学特性。另外,现存的蛋白质相互作用模型需要人为干预才能够发挥较为理想的预测性能,这导致了在训练模型的过程中往往需要大量的人力和时间进行参数调节。因此,如何提出一种人工干预少且考虑生物实验的后验信息的,快速准确的大规模预测蛋白质相互作用的计算模型是一个迫在眉睫的难题。本文针对以上述现存预测模型普遍存在的缺点,做了以下几方面的工作:一方面,本文提出的预测模型使用三种不同的特征抽取的方法来考虑了除序列以外的蛋白质信息。这三种特征抽取的方法分别是离散余弦变换(Discrete Cosine Transformation,DCT),小波变换(Wavelet Transform,WT)和全局编码(Global encoding,GE)。通过与现存的蛋白质序列特征算子的对比实验,我们可以发现本文提出的蛋白质序列特征表达方法有着出众的表达性能。另一方面,为了更好了结合本文提出的特征抽取方法,本模型采用了加权稀疏表达分类器来实现样本分类的功能。由于本文提出的特征抽取方法采用了图像分类领域中比较流行的特征算子或者参考其相关原理概念,所以最终采用了一种该领域出名的分类器——基于稀疏表达的加权分类器(weighted sparse representation based classifier,WSRC)。通过与最先进的机器学习分类器,支持向量机的对比实验,我们可以发现基于稀疏表达的加权分类器很好的与本文提出的特征抽取方法结合一起,并具有优越的预测性能。最终,本文通过两种集成学习的方法把三种基于蛋白质序列的特征抽取向量结合一起。这两种集成学习的方法分别是投票策略预测和基于残差合并预测。本文将提出的集成模型被应用于三个现存流行的数据集,并对实验结果进行研究分析、对比。通过与其他蛋白质序列特征抽取方法,机器学习分类器和已经提出的其他预测模型的性能比较,结果证明本文提出的蛋白质相互作用预测模型有着出众的预测性能,能够广泛地应用于蛋白质相互作用预测问题中。