蛋白质基因组学新基因发现与验证策略研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:oo2009123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自基因组测序技术诞生起,基因组学和转录组学就一直是基因组注释的主导力量。使用这两个组学的注释技术,大肠杆菌、酵母等模式生物的基因组得到了注释。基于质谱技术的蛋白组学尽管建立在基因组注释的基础之上,但同时还可以对基因组注释提供直接证据。使用蛋白质组学数据注释基因组,即蛋白质基因组学,是继基因组学和转录组学之后发展起来的又一项高通量的基因组注释技术。  传统的蛋白质基因组学的分析方法主要分为蛋白质基因组学数据库创建、肽段鉴定、结果重注释三个步骤。蛋白质基因组学数据库,例如由6阅读框翻译方法创建得到的数据库,不仅包含来自基因组已注释区域的序列,同时还包含来自基因组未注释区域的序列。来自这两个区域的肽段分别称作已注释肽段和新肽段,而其中的新肽段则可以用来更新基因组注释。在该数据库上完成质谱数据解析后,一般的蛋白质基因组学研究通过合并已注释肽段和新肽段并施以全局假发现率(FDR)估计的方法获得新肽段候选,并以此发现新基因、校正已注释基因。  不过,以往的蛋白质基因组学分析方法存在如下四点不足:1)已注释肽段和新肽段合并过滤的方法,没有考虑新肽段的类别FDR问题,致使研究结果中混入过多错误注释。2)即使考虑了新肽段的类别FDR,数据分析端仍然缺少准确估计新肽段类别FDR的策略。3)数据分析后端缺乏可靠的实验证据和深入的信息学分析,错误注释没有被有效地过滤,直接影响了基因组注释质量。4)缺乏有效的自动注释软件,研究人员常常需要综合多种工具完成数据分析。针对以上四点不足,本文对目前的蛋白质基因组学分析进行了探索和改进。具体来说,论文的贡献主要体现在:  1.首次使用类别FDR方法,从理论上证明了在常用的合并过滤技术下,已注释肽段的类别FDR会低于全局FDR,而新肽段的类别FDR会高于全局FDR。经过研究我们发现,基因注释完整性比例和基因组序列注释比例是影响新肽段类别FDR的关键因素。分析显示,新肽段高类别FDR现象的主导因素是基因注释完整性比例,更新了领域对新肽段高类别FDR主要受大数据库影响的认识。如果基因注释完整性比例低于90%,新肽段的类别FDR不会超过10%,而随着基因注释完整性比例提高到90%以上,新肽段的类别FDR会迅速增长。例如注释完整性比例为99.6%的结核分枝杆菌,新肽段类别FDR为69%;而在注释更为完整的大肠杆菌中(注释完整性比例为99.9%),新肽段类别FDR达到94%。这种情况在基因组注释后期将凸显出来,影响基因组注释质量。上述理论分析结果建议目前的质量控制步骤应该采用分开过滤的策略,并在此基础上估计类别FDR。另外,该理论模型还能结合全局FDR和新肽段类别FDR对未检测到的新基因给出一个估计。例如在酵母蛋白质基因组学分析中,我们估计当前的质谱技术手段再发现20个新基因将会是一个上限。  2.提出应使用T-FDR(Transferred FDR),而不是传统的分开过滤的方法(使用目标诱饵库肽段计数来估计类别FDR,称为Separated FDR或S-FDR),来准确估计新肽段类别FDR。S-FDR方法容易受到样本点不足的影响,致使类别FDR估计不准确。这一问题在新肽段类别FDR估计中尤为明显。为了解决该问题,我们首次将领域内最新的T-FDR技术应用于新肽段类别FDR估计上。在酵母蛋白质基因组学分析实践中,我们以S-FDR控制新肽段类别FDR<5%得到的20条新肽段为基础,比较了S-FDR与T-FDR估计值。结果显示S-FDR方法估计的5%明显低于T-FDR的27%。T-FDR方法是否准确地估计了新肽段类别FDR,有待检验。不仅如此,任意的FDR估计方法都无法识别错误鉴定的新肽段,更不符合新基因验证的需求。为此我们发展了一套新肽段验证,包括新基因(或新现象)验证的策略。  3.提出了合成多条候选肽段检验新肽段谱图鉴定正确与否的方法。在通过合成肽段检验的新肽段基础上,我们又发展了综合基因特征、转录组证据共同解释、检验新基因(或新现象)的方法。在酵母数据上,S-FDR控制新肽段类别FDR<5%得到的20条新肽段中,有12条确认通过合成肽段检验。其余的8条新肽段中,6条新肽段鉴定错误,2条无法确认,因此新肽段鉴定错误率至少为30%。T-FDR估计更加接近真实错误率。结合基因特征分析以及转录组证据,我们发现12条确认通过合成肽段验证的新肽段注释为3个新基因,3个内部核糖体进入位点(IRES)基因,3个蛋白质新N端以及1个翻译移码基因的新产物。这些新现象是单独使用以往的基因组学和转录组学等基因组注释技术无法发现的,证明了蛋白质基因组学的威力,同时也说明了我们所建立的数据分析、实验验证流程的有效性。除了发现新基因之外,我们在蛋白质水平FDR<1%的标准下,得到了4652条酵母已注释基因,刷新了鉴定纪录。  4.开发了蛋白质基因组学自动化注释工具pAnno,并首次在分析流程中整合了新肽段分开过滤及类别FDR估计,提高了基因组注释质量。长久以来,蛋白质基因组学研究均使用分散的工具,很少形成统一的、有效的分析流程。pAnno在内核中整合了数据库创建和基因组重注释两个功能,在界面上支持了注释结果查看和用户交互,为蛋白质基因组学分析提供了便利。按照pAnno的功能设计需求,我们在软件架构上尝试了视图-模型-控制器的模式,降低了pAnno内核和界面间的耦合性,方便后续功能的扩展。
其他文献
Rootkit是一种隐藏进程、文件、注册表等系统信息的技术,它往往被病毒、木马等恶意程序所利用,帮助它们隐藏恶意行为以避免被用户和安全软件所发现。可以说,Rootkit在系统上的存
随着计算机应用范围的拓展,计算环境的多样化和复杂性显著提高,应用安全需求的多样化使得计算机安全面临着更多挑战。尽管计算机安全技术不断发展,但是安全攻击事件仍然不断
时钟分布网络设计是高性能集成电路设计中最关键的步骤之一。时钟信号频率高,负载大,连线长,极大地影响着同步系统的性能。在基于标准单元的自动化设计中,时钟树综合与布线设计占
虚拟化技术是云计算环境中底层资源管理的关键支撑技术,它将底层硬件资源进行统一抽象管理,用户应用封装在上层虚拟机之内,多虚拟机可以共同运行在同一硬件环境中,极大地提高了硬
现代软件开发项目的规模和复杂度要求软件组织对软件过程进行量化管理和持续改进,并对资源进行合理有效的调度。人力资源是软件过程中最重要的一种资源。人力资源的调度直接影
CAD和CAM技术在企业的设计与生产过程中已经得到广泛应用。然而这些新技术的应用在促进企业生产力迅速发展的同时,也带来了许多意想不到的新问题。就设计行业而言,虽然针对各部
随着信息技术和网络技术的飞跃发展,Web服务的应用成为当今全球媒体、工业界和学术界关注的热点。目前,服务的各种技术标准不断发展,新的Web服务平台和开发环境不断推出,应用程序
本文着重研究对等计算(Peer-to-Peer Computing)系统。P2P技术,特别是P2P文件共享技术,在近年来已经被应用到多个领域。随着共享文件的增多,资源定位问题显得尤其重要。
入侵检测系统(IDS)的结构对于入侵检测系统自身的安全性是非常重要的。当前的入侵检测系统或者基于主机,或者基于网络。虽然它们有不同的入侵检测目标,但是在功能和自身安全性
近年来,随着三维数据采集设备(例如三维扫描仪、Kinect等)的普及以及相关技术逐渐成熟,三维模型获取的代价越来越低,模型质量大大提高,数量也爆发式增长。除了研究如何快速、精确地