论文部分内容阅读
系统全面的注释人类基因以及其编码的蛋白产物是人类基因组学研究的核心内容。本研究综合基于实验验证和人工注释的人类标准蛋白质数据库Swiss-Prot, RefSeq以及基于信息学预测和电子注释的人类预测蛋白质数据库TrEMBL, Ace View构建了一个包含278,101个蛋白质及其可变剪接体的人类蛋白质参考数据集。并通过国际合作从EBI-PRIDE, NCBI-Peptidome和NIST三个国际蛋白质组学资源中心以及北京蛋白质组学研究中心国家重点实验室获取了近7万组来自于不同生物组织和生理条件的人类蛋白质组学质谱数据。在此基础上基于Galaxy平台整合翻译后修饰识别,综合质量控制等自主开发分析工具和已有蛋白质组学分析软件,构建了在线高性能并行化蛋白质组学分析平台Firmiana,服务于本次研究以及中国人类蛋白质计划和国家蛋白质科学基础设施—北京基地(简称“凤凰工程”)的大规模蛋白质组学数据分析工作。通过Firmiana平台基于收集到的1.8亿串联质谱谱图资源,累计鉴定了249,688个来至于156,970个人类蛋白质的非冗余肽段。通过比对分析这些肽段与新一代测序质控标准联盟(SEQC)产生的大量新一代测序得到的表达谱读段在染色体上的位置以及对应的编码基因信息,我们验证了三大人类基因组注释体系下的蛋白编码基因表达情况(RefSeq:89.3%, AceView:59.5%, ENCODE:86.6%)。在这些编码基因中包含了15,745个来自于AceView预测的未在其它人类基因注释体系中出现但在人类组织中广泛表达的新基因。我们综合cDNA, RNA-Seq, MS/MS三个水平的实验数据,对鉴定蛋白质的可信度进行了进一步的评估,并利用已有蛋白质组学研究信息基于序列同源性和功能域识别等策略,对鉴定到的蛋白质进行了进一步的结构和功能注释,此外,通过比对蛋白肽段和基因结构注释信息,本研究还发现了一定数量的非典型性转录事件,如罕见Kozak序列等。以上研究结果以及来源于cDNA, RNA-seq和MS/MS层面的注释信息及原始实验数据信息被进一步整合归档在SHuPP (SEQC人类蛋白质研究平台)中。SHuPP同时还基于本研究获取的17,633,234个高质量肽段谱图构建了人类高质量先验肽段数据集,并提供了在线搜索工具和离线数据包,这一系统全面的人类蛋白质注释资源将会有力的推动和加速人类基因组注释及蛋白质组学研究。