论文部分内容阅读
随着人类基因组计划的完成,生物学走向以功能基因组学为标志的后基因组时代。作为后基因组时代的一个研究分支,蛋白质组学的研究扮演着重要的角色,这是由于生物体所执行的各种生命活动都离不开蛋白质以及它们之间的相互作用的参与。随着蛋白质测序技术、X-射线晶体衍射技术和蛋白质功能分析方法的日益发展和成熟,人们可以获得大量的蛋白质序列、结构和功能数据,这给我们创造了一个机会:采用数据驱动的方法来预测未知的蛋白质的结构和功能。本文采用机器学习的方法对蛋白质组学中的一些重要问题进行了深入研究。本文的研究内容包括以下几个部分:第一,首先分析了本文预测中所使用的蛋白质序列的特征属性,包括氨基酸的物理化学特征和氨基酸的组成和位置特性,采用模式挖掘算法为每个物种构建了类似人类语言的词典——蛋白质模式词典,并对每个模式词条赋予相应的二级结构信息。并根据模式词典中的词条采用最少分词思想,应用词网格技术对待预测的蛋白质序列进行切分。第二,在蛋白质二级结构预测中,提出了一种基于蛋白质模式词典的二级结构预测方法,并根据氨基酸的物理化学特征,构建物理化学特征模板,用以弥补词典中未登录词的预测,结合最大熵模型为蛋白质确定最佳的二级结构序列。这种基于蛋白质模式词典的二级结构预测结合氨基酸物理化学特征的方法,在Q3和SOV的评价指标下,取得了较好的效果。第三,在蛋白质相互作用预测中,采用了CTD编码方式解决蛋白质序列长度不一致导致输入向量维数不同的问题。结合支持向量机方法预测蛋白质相互作用。此方法仅需要蛋白质序列,不涉及到蛋白质的先验知识,具有普遍适用的特性。并取得了较好的试验结果。