论文部分内容阅读
基于新一代测序技术(Next Generation Sequencing,NGS)的转录组测序(Whole Transcriptome Sequencing,WTS or RNA-seq)相对于基因芯片技术是一种更为精确和全面的基因表达检测方法,成为现代生物医学研究领域中具有革命性的研究工具。Illumina平台是目前最为常见的测序平台,其测序read长度一般为36bp-250bp,包括单末端(single-end)测序和双末端测序(paired-end)。测序碱基质量得分(Phred Score)越高表示测序质量越好。经过不断发展RNA-seq技术已逐步成熟,但由于测序过程精细复杂,因此容易产生相当比例的低质量测序结果。测序从read的5’端开始且随着read长度的增加测序错误率逐渐增加。目前大多数基于比对结果的RNA-Seq分析工具和算法忽略了低质量碱基对下游分析产生的影响。目前己有大量关于从文库制备方法来提高RNA-Seq测序质量的文献报道,但RNA-Seq的整体质量得分依旧没有显著的提高。关于如何使用和设置低质量碱基去除(trimming)阈值的相关参数仍然是相关专业论坛上的高频谈论话题。鉴别这些低质量数据对下游基因表达分析的影响,并开发相应的数据预处理方法,是有效使用RNA-seq技术的关键步骤。Trimming方法是对RNA-Seq数据进行质量控制的常用方法之一,但目前对trimming的使用缺少合理评估和一致标准,使用过程中相关参数的设定存在很大的随意性。目前已有的研究报道表明对于RNA-Seq的最优质量控制阈值为测序数据中碱基质量得分的最低值。与此同时也有报道表明需要对RNA-Seq数据采取较为宽松的质量控制,且对RNA-Seq数据进行质量控制时要考虑read的最小长度。但以上已有的报道仍然存在样本量小、未根据样本自身质量得分对样本进行分类研究等不足。本研究基于肿瘤基因组数据库(The Cancer Genome Atlas,TCGA),首先分析了大样本(456个样本)低质量碱基的分布特征,发现其主要分布于测序读断(read)的两端,且双末端测序(paired-end sequencing)read的反向末端(reverse-end)测序质量显著低于前向末端(forward-end)。然后分析了 trimming强度对基因表达检测的影响,发现对于测序质量整体较差的样本(任意位置 lower quantile of Phred Score<10 or median