论文部分内容阅读
二十一世纪是信息技术时代,同时也是生物技术时代,生物信息学正是二者的有效结合,它利用计算机科学技术解决生物学中的各种问题。随着人类基因组计划的完成,生物学走向以功能基因组学为标志的后基因组时代。作为后基因组时代的一个研究分支,蛋白质组学的研究扮演着重要的角色,这是由于生物体所执行的各种生命活动都离不开蛋白质以及它们之间的相互作用的参与。 随着蛋白质测序技术、X-射线晶体衍射技术和蛋白质功能分析方法的日益发展和成熟,人们可以获得大量的蛋白质序列、结构和功能数据,这给我们创造了一个机会:采用数据驱动的方法(如机器学习技术)来预测未知的蛋白质的结构和功能。本文采用机器学习的方法对蛋白质组学研究中的一些重要问题进行了深入研究。本文的研究内容包括以下几个部分: 第一,利用模式挖掘算法为每个物种构建了类似人类语言的词典——蛋白质模式词典,并对每个模式词条赋予相应的二级结构信息。针对蛋白质二级结构预测这一生物信息学中的经典问题,提出了一种基于蛋白质模式词典的二级结构预测方法,并结合隐马尔可夫模型为蛋白质确定最佳的二级结构序列。这种基于蛋白质模式词典的二级结构预测方法可以有效地解决传统基于单个残基的预测方法所存在的问题,在修正的SOV(Segment Overlap Measure)量度上,可以有效地提高预测的性能。 第二,目前在国际上不存在用于蛋白质相互作用预测的标准训练集,而很多研究者从蛋白质相互作用数据库提取的训练样本包含大量的假阳性和假阴性。针对该问题,本文采用了von Mering为酵母蛋白质相互作用数据集中的每个样本赋予的不同可信度,并基于蛋白质亚细胞位置信息为每个反例样本赋予不同的可信度。在使用这些数据时,为不同可信度的样本赋予不同权重。最后本文对基于AR(Attraction-Repulsion)模型和最大似然估计的两种相互作用预测方法引入加权的思想,提出加权AR模型和加权最大似然估计方法,其可以更加准确地估计模型的参数——蛋白质域相互作用概率。 第三,由于蛋白质相互作用研究还是一个新的研究问题,因此已标注的蛋白质相互作用数据集还很不完善,与此同时,存在大量未标注数据。自学习可以很好地结合标注样本和大量未标注样本,通过迭代学习的过程,不断地从未标注样本中获得潜在的相互作用并用于训练。该方法能够有效地降低训练过程对标注样本的数量需求,在蛋白质相互作用预测问题上具有重要的应用价值。实验结果表明,利用未标注样本的自学习方法比单纯利用标记样本的有监督学习方法得到的模型具有更好的预测性能。 第四,传统的蛋白质相互作用位点预测都是作为残基分类任务解决的,每个残基类别的确定没有考虑相邻残基类别的影响,但事实上,序列相邻或者空间相邻的残基的类别之间是有关联的。针对这一问题,本文采用条件随机域这一自然语言领域中常见的序列标注方法对蛋白质序列上的相互作用位点进行标注。给定一个蛋白质,抽取位于蛋白质表面的残基序列片段并将其作为一个整体,条件随机域方法能够对该序列片段进行整体性的标注,得到最佳的残基类别序列。实验结果表明,这种基于条件随机域的蛋白质相互作用位点预测方法具有较好的鲁棒性,取得了比传统的分类方法具有更好的预测性能。