论文部分内容阅读
人类基因组计划的顺利完成,新的高效的实验技术的广泛应用,产生了海量的基因序列信息,生命科学方面的研究也正式步入了后基因组时代。蛋白质参与到生命活动的方方面面,蛋白质研究方面主要着重基于蛋白质的序列来分析蛋白质的结构和功能。蛋白质的结构与其功能是相关的,一种蛋白质能够表现出特定的功能,是由其独特的结构所决定的。生命的基本过程就是不同功能蛋白质在特定条件下系统作用的结果,蛋白质相互作用在生物体中几乎无所不在。蛋白质结构类和蛋白质一蛋白质相互作用的研究不但有助于对其功能的认识和理解,揭示生命活动的本质,帮助了解相关生物功能和了解相关的生物过程机制,而且有助于对相关疾病的分析和开发治疗的药品。研究蛋白质功能方面的相关问题具有必要性和紧迫性,蛋白质结构类和相互作用预测方法研究更是其中的热点和难点。传统的生物实验方法已经无法满足对大规模测试的需求,研究人员从计算的角度在一定程度上解决了传统方法的缺点,大大加快了测定的速度,但是还是存在一些问题。本文提出了两种新颖的预测方法,分别是基于序列信息编码和基于多示例学习算法进行相关问题预测。在结构类预测方法研究中,本文的重点在于通过新的特征编码构造尽可能的反映蛋白质最真实的结构,而不仅仅是序列的组成信息。在蛋白质相互作用预测研究中,通过多示例学习中的示例标签的不确定性巧妙的基于结构域信息直接进行相互作用的预测。本文的研究工作主要为:1.对现有的针对蛋白质结构类和蛋白质相互作用预测的计算方法进行了分类总结,对不同方法的理论依据以及优缺点进行了简单阐述。2.从蛋白质序列特征构造的角度提出了基于自相关系数和伪氨基酸组成的蛋白质结构类预测方法。以往的基于序列的特征向量构造时大多只考虑了二十种氨基酸在该蛋白质的序列中所占的比重,更多的考虑组成信息,较少考虑其中的排列顺序和耦合信息。通过自相关系数和伪氨基酸组成两种序列编码方法,能够在反映出序列中氨基酸的位置信息的同时,考虑到序列内部相距不同长度位置的氨基酸间的相互影响,能够较为真实反映蛋白质的真实的结构信息。通过在公认的数据集及独立构造的数据集上进行多次实验,相比传统氨基酸组成方法提高了14.49%、8.33%和2.78%,对比分析表明新的方法能提高预测的准确性。3.论文提出基于结构域信息和多示例学习的蛋白质相互作用预测方法。传统的基于结构域方法通常需要从已知相互作用的蛋白质对中明确哪些对结构域是相互作用的,然后才能去进行未知的蛋白质相互作用预测,然而现实中往往很难获得详细的这些信息。针对此类问题,本文利用多示例学习的思想,根据包有标记、包中示例没有标记这一特点,将蛋白质对看成一个包,将蛋白质对中的每对结构域看成示例,这样就不需要预先知道哪些结构域间是相互作用的。该方法模糊了某个示例是否是导致蛋白质相互作用的信息,简化传统结构域方法的步骤。在自主构造的数据集上,分别应用多示例学习算法和常用的机器学习算法进行多组实验,对比发现该方法是有效的。