基于方差和中值调整的RNA-Seq数据标准化方法及其评估

来源 :厦门大学 | 被引量 : 0次 | 上传用户:sychf1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新一代高通量测序技术的飞快发展,RNA测序技术(RNA-Seq)已经被广泛应用于各种生物的转录组分析中。由于不同的测序文库是由不同测序泳道产生的且测序深度有所不同,导致不同文库不能直接进行比较分析。因此,需要对测序文库序列数据进行标准化处理来调整不同测序泳道的总序列数,消除实验过程中测序技术上的误差,使能够更准确地分析基因的表达差异。本文提出了最小方差中值标准化方法,基于方差和中值调整对RNA-Seq数据进行标准化,既考虑了测序文库中所有基因的表达水平对全局表达量的影响,又考虑到每个单一的基因表达量影响。本文利用该方法对拟南芥多聚腺苷化[ploy(A)]位点和基因数据集进行分析,基于几何平均法计算几何平均方差和基于加权截尾法计算均值方差,对每个样本综合两个方差得到一个最优方差,最后对方差调整后的整个测序文库的所有样本进行中值调整,从而实现数据的标准化。本文最后基于不同样本间的数据分布、均方误差和K-S(Kolmogorov-Smirnov)统计两个经验统计量以及差异表达分析等方式对最小方差中值标准化方法进行评估,并与已有的标准化方法DESeq(Differential Expression Sequence)和TMM(Trimmed Mean of M Values)进行综合比较。实验结果表明,最小方差中值标准化方法能用于有效处理高通量RNA-Seq数据,实现不同条件下的测序数据的标准化,使标准化后的各个测序文库序列数样本具有相同数据分布,并能将所有测序样本调整到同一水平,缩小了测序文库中基因和poly(A)位点在不同测序样本下的总体表达差异。
其他文献
80年代中、后期,中国当代诗坛引人注目是西部诗群。它植根于旷远深厚的民族历史、苍茫辽阔的地域文化和超常艰辛而又充满希望的现实土壤,以着力表现"西部氛围"、"西部意识"和
论述了内风产生的历史沿革、病因病机和其致病特点,阐述了内风证的现代临床应用拓展、内风证的治则和内风证治疗中风药的应用,同时指出内风理论对中医的临床和实践具有重要意
由于很难实现同步采样和整周期截断,因此,利用FFT算法分析电网谐波信号时存在频谱泄露和栅栏效应,影响算法的分析精度。加窗插值FFT是抑制频谱泄露和消除栅栏效应的有效方法,
目的探索经改进来自民间的弹捏法护理偏瘫患者改善肢体运动功能的作用.方法 63例患者按病床单双号分为研究组( 32例)和对照组( 31例),对照组进行药物+一般训练,研究药物+弹捏
本文把工程演化过程理解为一种“双重双螺旋”过程,即由“技术链”和“非技术链”(“经济-社会链”)共同构成的“双螺旋”。演化过程则由“技术发明-工程创新-产业扩散”三个
2012年,香港中文大学图书馆入藏一种清代诗人王士稹手迹《诗文杂稿》,包含其晚年诗文笔记草稿多种,弥足珍贵。本文首先考述此手稿之内容体例与其撰作、成秩及流传过程,辑录佚
目的调查不同群体对本科实用型护理人才临床能力的期望状况。方法采用本科实用型护理人才临床能力期望问卷,对护理管理者、临床带教教师、本科学历护士、本科实习学生、护理
<正> 1964年底,中央乐团计划把京剧《沙家浜》中“坚持”一场的几个唱段改成一曲大合唱,并成立了以指挥李德伦为首,喜好京剧的小提琴演奏员杨牧云、中提琴演奏员邓中安参加的
群众监督的思想是邓小平反腐理论中的重要组成部分,但在现实的反腐斗争中并没有得到有效的实施。本文从人民群众和机关部门两方面分析了实现群众监督所存在的障碍,并提出了清