论文部分内容阅读
当前生命科学研究已经进入后基因组学时代,其主要研究对象为结构基因组学和蛋白质组学。细胞的功能必须通过蛋白质相互作用才能实现,因此,对蛋白质相互作用的研究显得尤为重要。
随着高通量的生物实验技术发展和应用,产生了大量的蛋白质相互作用实验数据,但是此类方法所得到的数据假阳性和假阴性比率都比较高。因此,有效的计算方法被用来蛋白质相互作用预测的研究。本文旨在以机器学习及模式识别理论为基础,以蛋白质序列信息为前提预测蛋白质相互作用。
本文的主要工作包括:蛋白质相互作用预测算法和蛋白质相互作用数据管理工具。本文主要内容以及创新之处包括以下两方面:
1、本文蛋白质相互作用预测算法基于蛋白质序列信息。首先对样本数据进行预处理,预处理得到的数据格式为本文自定义的特殊批处理数据格式。然后,分别对蛋白质序列的氨基酸频率、位置、物化性质、生化相似性等特征分别进行特征提取。接着,采用支持向量机作为样本的分类器,因为支持向量机是基于结构风险最小化的统计学习理论,并且支持向量机支持小样本分类预测。对于每一个特征所得到的数据训练支持向量机预测模型,分别将其置于组分分类器中。本文的3个支持向量机预测模型作为组合分类器的子分类器,采用基于成员的组合分类器预测算法得到最终预测结果。本文对组合分类器算法进行了详细的研究和公式推导,并且计算得出基于成员数目的组合分类器理论约束条件。在3类数据集合上:人、酵母、果蝇验证本文算法,组合分类器预测准确率优于单个分类器预测准确率,并且部分数据集预测结果高于相关文献的结果。
2、本文的另外一部分工作是蛋白质相互作用数据管理工具的设计。因为本课题数据部分比较特殊:来源广泛、数据格式多样。因此会造成数据查询、插入和管理的困难。现有大部分网络数据库管理系统或提供蛋白质序列信息或提供相互作用信息,没有同时提供序列信息和相互作用信息。本课题设计的数据管理工具可以同时显示序列信息和相互作用信息,用户无需跨数据库平台就可以得到蛋白质相互作用研究所需的序列和相互作用信息。本工具为B/S结构,前台是基于ASP.NET网页开发平台和HTML脚本的WEB界面,后台采用C#.NET编写消息处理函数,前后台通信采用API函数。本工具的后台数据库采用SQL server。本工具是对蛋白质相互作用数据管理工具开发的一次有效尝试,其基本功能贴近课题实际。