论文部分内容阅读
自基因组测序技术诞生起,基因组学和转录组学就一直是基因组注释的主导力量。使用这两个组学的注释技术,大肠杆菌、酵母等模式生物的基因组得到了注释。基于质谱技术的蛋白组学尽管建立在基因组注释的基础之上,但同时还可以对基因组注释提供直接证据。使用蛋白质组学数据注释基因组,即蛋白质基因组学,是继基因组学和转录组学之后发展起来的又一项高通量的基因组注释技术。 传统的蛋白质基因组学的分析方法主要分为蛋白质基因组学数据库创建、肽段鉴定、结果重注释三个步骤。蛋白质基因组学数据库,例如由6阅读框翻译方法创建得到的数据库,不仅包含来自基因组已注释区域的序列,同时还包含来自基因组未注释区域的序列。来自这两个区域的肽段分别称作已注释肽段和新肽段,而其中的新肽段则可以用来更新基因组注释。在该数据库上完成质谱数据解析后,一般的蛋白质基因组学研究通过合并已注释肽段和新肽段并施以全局假发现率(FDR)估计的方法获得新肽段候选,并以此发现新基因、校正已注释基因。 不过,以往的蛋白质基因组学分析方法存在如下四点不足:1)已注释肽段和新肽段合并过滤的方法,没有考虑新肽段的类别FDR问题,致使研究结果中混入过多错误注释。2)即使考虑了新肽段的类别FDR,数据分析端仍然缺少准确估计新肽段类别FDR的策略。3)数据分析后端缺乏可靠的实验证据和深入的信息学分析,错误注释没有被有效地过滤,直接影响了基因组注释质量。4)缺乏有效的自动注释软件,研究人员常常需要综合多种工具完成数据分析。针对以上四点不足,本文对目前的蛋白质基因组学分析进行了探索和改进。具体来说,论文的贡献主要体现在: 1.首次使用类别FDR方法,从理论上证明了在常用的合并过滤技术下,已注释肽段的类别FDR会低于全局FDR,而新肽段的类别FDR会高于全局FDR。经过研究我们发现,基因注释完整性比例和基因组序列注释比例是影响新肽段类别FDR的关键因素。分析显示,新肽段高类别FDR现象的主导因素是基因注释完整性比例,更新了领域对新肽段高类别FDR主要受大数据库影响的认识。如果基因注释完整性比例低于90%,新肽段的类别FDR不会超过10%,而随着基因注释完整性比例提高到90%以上,新肽段的类别FDR会迅速增长。例如注释完整性比例为99.6%的结核分枝杆菌,新肽段类别FDR为69%;而在注释更为完整的大肠杆菌中(注释完整性比例为99.9%),新肽段类别FDR达到94%。这种情况在基因组注释后期将凸显出来,影响基因组注释质量。上述理论分析结果建议目前的质量控制步骤应该采用分开过滤的策略,并在此基础上估计类别FDR。另外,该理论模型还能结合全局FDR和新肽段类别FDR对未检测到的新基因给出一个估计。例如在酵母蛋白质基因组学分析中,我们估计当前的质谱技术手段再发现20个新基因将会是一个上限。 2.提出应使用T-FDR(Transferred FDR),而不是传统的分开过滤的方法(使用目标诱饵库肽段计数来估计类别FDR,称为Separated FDR或S-FDR),来准确估计新肽段类别FDR。S-FDR方法容易受到样本点不足的影响,致使类别FDR估计不准确。这一问题在新肽段类别FDR估计中尤为明显。为了解决该问题,我们首次将领域内最新的T-FDR技术应用于新肽段类别FDR估计上。在酵母蛋白质基因组学分析实践中,我们以S-FDR控制新肽段类别FDR<5%得到的20条新肽段为基础,比较了S-FDR与T-FDR估计值。结果显示S-FDR方法估计的5%明显低于T-FDR的27%。T-FDR方法是否准确地估计了新肽段类别FDR,有待检验。不仅如此,任意的FDR估计方法都无法识别错误鉴定的新肽段,更不符合新基因验证的需求。为此我们发展了一套新肽段验证,包括新基因(或新现象)验证的策略。 3.提出了合成多条候选肽段检验新肽段谱图鉴定正确与否的方法。在通过合成肽段检验的新肽段基础上,我们又发展了综合基因特征、转录组证据共同解释、检验新基因(或新现象)的方法。在酵母数据上,S-FDR控制新肽段类别FDR<5%得到的20条新肽段中,有12条确认通过合成肽段检验。其余的8条新肽段中,6条新肽段鉴定错误,2条无法确认,因此新肽段鉴定错误率至少为30%。T-FDR估计更加接近真实错误率。结合基因特征分析以及转录组证据,我们发现12条确认通过合成肽段验证的新肽段注释为3个新基因,3个内部核糖体进入位点(IRES)基因,3个蛋白质新N端以及1个翻译移码基因的新产物。这些新现象是单独使用以往的基因组学和转录组学等基因组注释技术无法发现的,证明了蛋白质基因组学的威力,同时也说明了我们所建立的数据分析、实验验证流程的有效性。除了发现新基因之外,我们在蛋白质水平FDR<1%的标准下,得到了4652条酵母已注释基因,刷新了鉴定纪录。 4.开发了蛋白质基因组学自动化注释工具pAnno,并首次在分析流程中整合了新肽段分开过滤及类别FDR估计,提高了基因组注释质量。长久以来,蛋白质基因组学研究均使用分散的工具,很少形成统一的、有效的分析流程。pAnno在内核中整合了数据库创建和基因组重注释两个功能,在界面上支持了注释结果查看和用户交互,为蛋白质基因组学分析提供了便利。按照pAnno的功能设计需求,我们在软件架构上尝试了视图-模型-控制器的模式,降低了pAnno内核和界面间的耦合性,方便后续功能的扩展。