论文部分内容阅读
背景肺癌是一个高发病率和高死亡率的癌种之一,随着高通量测序技术的快速发展,肺癌的精准医疗也为肺癌诊疗开启了新的方向。肺癌精确治疗需要全面的基因组检测来确定可行的靶点,转录组测序是一个健全的平台能够满足基本的需求。理论上无论RNA种类及其丰度水平如何,转录组测序需要进行临床运用需要做到RNA的精准定量。但是,由于转录组测序数据产生的过程中包含了多种复杂的步骤,包括:逆转录,扩增,片段化,纯化,接头片段连接和测序。其中任何一步完成的不恰当都可能造成数据不准确。更重要的是一些内部的偏差包含GC偏倚和核苷酸组成偏差以及转录组复杂性也是数据不完善的主要原因。因此,充分了解转录组测序数据的特性,建立完善的转录组测序数据质量评价策略是获取高质量转录组数据的前提,而高质量的转录组测序数据是转录组数据分析的前提,也是利用转录组数据辅助临床诊疗的基础。基因组数据共享数据库(GDC)包含了癌症和肿瘤图谱(TCGA)数据库中33种癌症的转录组的测序数据,并且数据质量高,利用基因组数据共享数据库(GDC)转录数据,一些肺癌诊疗预后相关的标志物被挖掘出来,同时这些标志物在肺癌发生发展过程中的生物学功能也被揭示。随着高通量测序技术的快速发展,转录组测序在辅助肺癌研究方面发挥这重要的作用,同时对于临床肺癌的辅助诊疗同样发挥着不可替代的作用。方法三家测序公司对国际组学大数据质量控制学会(MAQC)的标准物质样本A和B进行转录组测序,通过标准物质产生的转录组测序结果对三家测序公司测序质量进行评估,同时构建转录组测序数据质量评估的标准流程,构建转录组测序数据质量评价体系。采集基因组数据共享数据库(GDC)27种癌症的转录组测序数据,利用t检验的方法筛选肺腺癌特异性差异表达基因,同时通过诊断分析、生存分析和多因素cox回归分析对肺腺癌特异性表达基因进行进一步筛选,筛选出具有诊断和预后预测特性的基因,对具有预后特性的肺腺癌特异性表达基因构建风险评分模型,利用该模型对肺腺癌病人的预后进行独立预测。在肺腺癌特异性表达基因筛选过程中,我们发现CHIAP2具有诊断及预后预测特性。随后,我们搜集临床肺腺癌病人新鲜组织样本18对,用实时荧光定量PCR对CHIAP2进行定量分析。同时,构建CHIAP2过表达肺腺癌细胞系,通过增殖、迁移、侵袭以及凋亡实验探究CHIAP2在肺癌发生发展过程中的生物学功能。结果通过评价三家测序公司的标准物质样本A和B转录组测序数据,构建了系统的转录组测序评价流程,该流程包括原始转录组测序数据中碱基质量,ATGC碱基分布,GC含量,比对率和定量评分,同时比较技术重复结果的一致性以及将定量结果同国际组学大数据质量控制学会(MAQC)标准数据集结果进行比较。最终结果是三家公司转录组测序定量结果一致性高,说明了在定量水平三家公司都能够要求。我们分析了基因组数据共享数据库(GDC)27个癌症类型的10098个肿瘤组织样品转录组数据,并在肺腺癌中鉴定了112个特异性表达基因,8240个差异表达的基因,其中有70个肺腺癌特异性差异表达基因,在这70个肺腺癌差异表达基因组有6个具有肺腺癌诊断特性(AUC>95%),另外6个具有肺腺癌预后预测特性(logRank P<0.01),COX回归分析6个预后预测特性的基因具有独立预测能力,同时利用这6个基因构建的风险评分模型对肺腺癌病人预后具有独立的预测能力。在筛选的过程中发现CHIIAP2是唯一一个同时具有诊断及预后预测特性的基因,临床18对肺腺癌新鲜组织rt-PCR的结果与数据库结果一致,即CHIAP2在肺腺癌中处于低表达。同时CHIAP2过表达的肺腺癌细胞系功能研究发现,相比较正常对照组和阴性对照组,CHIAP2过表达的肺腺癌细胞系,其增殖、迁移以及侵袭能力都下降了。结论从转录组测序数据质量控制,到转录组定量结果深入挖掘获取辅助临床诊疗的基因标志物,再到探究该基因的生物学功能机制,本项目对于转录组测序数据挖掘到临床应用形成了一个完整的闭环,从而也为转录组测序辅助临床肺腺癌诊疗提供了新的思路。