论文部分内容阅读
随着新一代高通量测序技术的飞快发展,RNA测序技术(RNA-Seq)已经被广泛应用于各种生物的转录组分析中。由于不同的测序文库是由不同测序泳道产生的且测序深度有所不同,导致不同文库不能直接进行比较分析。因此,需要对测序文库序列数据进行标准化处理来调整不同测序泳道的总序列数,消除实验过程中测序技术上的误差,使能够更准确地分析基因的表达差异。本文提出了最小方差中值标准化方法,基于方差和中值调整对RNA-Seq数据进行标准化,既考虑了测序文库中所有基因的表达水平对全局表达量的影响,又考虑到每个单一的基因表达量影响。本文利用该方法对拟南芥多聚腺苷化[ploy(A)]位点和基因数据集进行分析,基于几何平均法计算几何平均方差和基于加权截尾法计算均值方差,对每个样本综合两个方差得到一个最优方差,最后对方差调整后的整个测序文库的所有样本进行中值调整,从而实现数据的标准化。本文最后基于不同样本间的数据分布、均方误差和K-S(Kolmogorov-Smirnov)统计两个经验统计量以及差异表达分析等方式对最小方差中值标准化方法进行评估,并与已有的标准化方法DESeq(Differential Expression Sequence)和TMM(Trimmed Mean of M Values)进行综合比较。实验结果表明,最小方差中值标准化方法能用于有效处理高通量RNA-Seq数据,实现不同条件下的测序数据的标准化,使标准化后的各个测序文库序列数样本具有相同数据分布,并能将所有测序样本调整到同一水平,缩小了测序文库中基因和poly(A)位点在不同测序样本下的总体表达差异。