RNA-Seq数据差异表达及聚类分析研究

来源 :南京航空航天大学 | 被引量 : 3次 | 上传用户:scotty_zhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,低成本、高通量、数字化的RNA-Seq技术得到了广泛的应用,并获得了大量的读段数据,为基因表达水平计算及后续分析研究提供了充分条件。RNA-Seq数据通过基因表达水平计算以及后续分析,获得富有生物学意义的分析结果,为最终生物学结论的推断提供帮助。因此RNA-Seq数据后续分析的重要性不言而喻。基因的差异表达和聚类分析作为基因表达后续分析的两个重要任务,是发现未知基因功能的重要途径。差异表达分析通过检测基因在不同环境条件下是否发生差异表达,探索基因潜在的相关功能。聚类分析是按照表达谱相近原则将基因表达数据归类,根据聚类到同一类簇的基因探索未知的基因功能。由于读段计数非均匀分布特性,读段计数通常以负二项分布来建模。在RNA-Seq数据后续分析研究中,一些现有的算法直接对读段计数进行建模,没有充分考虑实验本身存在的各种噪声以及基因表达水平测量的不确定性,或者对生物重复实验不确定性考虑不够。本文主要是针对这些不足在基因差异表达和聚类分析两个方向进行研究。在差异表达分析研究中,除了上述不足外,目前许多RNA-Seq实验都涉及多个条件,而大部分差异表达分析算法只能应用于两个实验条件,多条件差异表达分析方法仍在研究中。本文在此研究背景下提出多条件基因差异表达分析方法PUseqDE(propagating uncertainty into multi-condition RNA-Seq Differential Expression analysis)。PUseqDE首先利用PGSeq模型获得多条件RNA-Seq数据的基因表达水平和相关技术不确定性,然后在检验假设下设计了null model和alternative model两个贝叶斯分层模型,最后利用似然比检验进行多条件差异表达分析。本文使用模拟数据集和两个真实数据集验证所提出的多条件差异表达分析方法PUseqDE,实验结果表明,PUseqDE比其他方法具有更高的灵敏度和准确度。在聚类分析研究中,目前聚类分析方法也存在类似不足,除此之外一些聚类算法无法确定最优类簇个数,或者对聚类中心的不确定性考虑不够。本文基于PGSeq模型模拟读段的随机产生过程,采用拉普拉斯方法考虑多条件多重复基因表达水平之间的相关性,获得了基因表达水平及技术不确定性,联合混合t分布聚类模型,提出PUseqClust(propagating uncertainty into RNA-Seq clustering)框架进行RNA-Seq读段数据的聚类分析。实验结果表明,PUseqClust方法相比其他方法获得了更具生物意义的聚类结果。
其他文献
序列相关扩增多态性(SRAP)是近年来发展起来的一种新型分子标记系统,它具有简便、中等产量、高共显性、重复性、易于分离条带及测序等优点,最大的特点是它针对的是基因的阅读框区
随着现代社会的发展,行政管理范围的拓展,行政权力的相对扩张,如何加强对行政权力的监督制约,建设廉洁政府、高效政府、法治政府已成为世界各国共同面对的一个课题,因此,加强
文章提出一种将载波与码相位分离的载波频偏估计算法。该算法可以高精度、快速地估计卫星信号的载波频偏。算法的主要思想是:在对卫星数字中频信号下变频后,将I、Q2路信号直接
园林植物可以净化空气、减缓城市热岛效应、美化城市,因此,其重要性不容小觑。然而在当前发展中,园林植物存在很多问题,通过实际观察发现,本文对其中存在的主要问题进行分析
<正>财税专家李炜光教授在其新著《李炜光说财税》的后记中说:探讨税收问题历来吃力不讨好,在我们这个纳税人权利意识还没有完全苏醒的社会里相当于逆风行船,其艰难可想而知
期刊
随着经济发展,城市规模不断扩大,城市人口急剧增加,城市拥挤、交通堵塞、噪音空气污染等等问题随即涌现。地铁以其独有的优势,如采用电力驱动,减少了空气污染;载客量远大于汽
近二十年来,锤头核酶作为基因治疗的一种重要RNA酶类越来越受到人们的广泛关注,有关锤头核酶抗病毒作用机理及应用等问题的研究正在逐步深入。本文仅就其分子结构、催化功能及影响
经济越发展,会计越重要.电大会计专业在研究和探索的基础上,构建了“课岗证一体化”的人才培养模式,它能有效培养会计学员的职业素质、操作能力和系统知识.
在kNN算法分类问题中,k的取值一般是固定的,另外,训练样本中可能存在的噪声能影响分类结果。针对以上存在的两个问题,本文提出一种新的基于稀疏学习的kNN分类方法。本文用训练样
本文以三门峡至淅川高速公路(灵宝-卢氏-西坪段)处Q3的黄土路堤边坡为研究对象,研究黄土路堤边坡在干湿循环作用下的承载比CBR值、粘聚力c、内摩擦角φ等变化规律。抗剪强参数