论文部分内容阅读
近年来,低成本、高通量、数字化的RNA-Seq技术得到了广泛的应用,并获得了大量的读段数据,为基因表达水平计算及后续分析研究提供了充分条件。RNA-Seq数据通过基因表达水平计算以及后续分析,获得富有生物学意义的分析结果,为最终生物学结论的推断提供帮助。因此RNA-Seq数据后续分析的重要性不言而喻。基因的差异表达和聚类分析作为基因表达后续分析的两个重要任务,是发现未知基因功能的重要途径。差异表达分析通过检测基因在不同环境条件下是否发生差异表达,探索基因潜在的相关功能。聚类分析是按照表达谱相近原则将基因表达数据归类,根据聚类到同一类簇的基因探索未知的基因功能。由于读段计数非均匀分布特性,读段计数通常以负二项分布来建模。在RNA-Seq数据后续分析研究中,一些现有的算法直接对读段计数进行建模,没有充分考虑实验本身存在的各种噪声以及基因表达水平测量的不确定性,或者对生物重复实验不确定性考虑不够。本文主要是针对这些不足在基因差异表达和聚类分析两个方向进行研究。在差异表达分析研究中,除了上述不足外,目前许多RNA-Seq实验都涉及多个条件,而大部分差异表达分析算法只能应用于两个实验条件,多条件差异表达分析方法仍在研究中。本文在此研究背景下提出多条件基因差异表达分析方法PUseqDE(propagating uncertainty into multi-condition RNA-Seq Differential Expression analysis)。PUseqDE首先利用PGSeq模型获得多条件RNA-Seq数据的基因表达水平和相关技术不确定性,然后在检验假设下设计了null model和alternative model两个贝叶斯分层模型,最后利用似然比检验进行多条件差异表达分析。本文使用模拟数据集和两个真实数据集验证所提出的多条件差异表达分析方法PUseqDE,实验结果表明,PUseqDE比其他方法具有更高的灵敏度和准确度。在聚类分析研究中,目前聚类分析方法也存在类似不足,除此之外一些聚类算法无法确定最优类簇个数,或者对聚类中心的不确定性考虑不够。本文基于PGSeq模型模拟读段的随机产生过程,采用拉普拉斯方法考虑多条件多重复基因表达水平之间的相关性,获得了基因表达水平及技术不确定性,联合混合t分布聚类模型,提出PUseqClust(propagating uncertainty into RNA-Seq clustering)框架进行RNA-Seq读段数据的聚类分析。实验结果表明,PUseqClust方法相比其他方法获得了更具生物意义的聚类结果。