论文部分内容阅读
蛋白质是生命机体的基本组成成分,是连结分子运作和生物功能的主要组成部分,因此对蛋白质的研究有助于理解分子机理,更加清晰的了解生命活动的规则。目前,运用数学、信息学、计算机科学等学科的工具对蛋白质进行研究的生物信息学——蛋白质组学已经成为异常活跃的研究领域之一。本文以信息论方法和优化方法为工具,以蛋白质序列、蛋白质结构、人体组织的蛋白质组为研究对象,以提取蛋白质序列、蛋白质结构、蛋白质组的可区分表达的特征信息为目的,主要针对蛋白质序列比较及其应用、蛋白质结构比较和质谱数据分类这三个方面进行了研究。本文的主要研究成果如下:在第二章,首先针对蛋白质多序列比对问题,建立了多序列比对的整数规划模型,证明了该模型最优解的存在性,并且构造了优化算法用于求解该模型;根据氨基酸的亲疏水性质,构造出蛋白质磷酸化位点周围的亲水残基序列间隔分布来模拟磷酸化位点周围的物理化学环境,同时设计了预测磷酸化位点的算法;再者针对外膜蛋白和其他膜蛋白及球蛋白的区分问题,利用蛋白质的子序列分布和FDOD函数进行了研究,此方法在一些公用数据集上的分类精度高于已有的一些算法。在第三章,主要研究了蛋白质结构比较问题。首先基于完全信息集的概念,提出了一种蛋白质结构描述方法——中心碳原子距离序列的子序列分布表示,并基于这种表示方法和FDOD函数,给出了一种蛋白质结构的偏差度量,并设计了一种蛋白质结构比较方法,应用该方法对一些公用数据集进行了聚类分析,取得了较好的聚类结果,表明了该方法的有效性。其次,用间隔为3的中心碳原子的距离分布来近似刻画蛋白质结构的局部几何,用中长程作用的线陛序列分布来刻画蛋白质结构的整体拓扑,给出了一种蛋白质折叠的几何-拓扑混合表示,并基于这种表示和FDOD函数,给出了一个蛋白质结构的偏差度量,设计了一种新的蛋白质结构比较方法和分类方法。应用这种方法对一些公用数据集进行了聚类分析和分类试验,取得了较好的聚类结果和分类结果,表明了该方法的有效性;最后,在功能预测实验平台上,基于蛋白质结构的接触向量表示,系统比较了FDOD函数、交叉熵和欧式距离三种度量,试验结果表明:FDOD函数更适合于度量接触向量表示之间的偏差。在第四章,以人体组织的蛋白质组为研究对象,应用基于FDOD方法的分类器对癌症病人和良性携带者的蛋白质质谱数据进行了分类,分类精度令人满意;以分类精度高且使用的特征少为目标,建立了质谱数据特征选择问题的多目标规划模型,将该多目标规划模型转化为了一个单目标规划模型,并简单分析了该模型最优解的存在性。