单细胞转录组测序数据的分析方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:caojun510
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单细胞转录组测序(scRNA-seq)是近年来一项突破性的技术,其在单细胞分辨率下测定RNA水平并推断基因表达谱,为全面揭示细胞之间基因表达的差异性提供了有力工具。基于单细胞的生命科学研究为探究重大疾病的起因、发展和治疗提供更可靠的科学依据。通过基于转录组相似性的无监督聚类来定义细胞类型已经成为scRNA-seq最强大的应用之一。然而,由于从单个细胞获得的RNA初始量较低,scRNA-seq数据通常显示出较高的噪声水平和过多的零值。区别于真实基因表达的“假”的零计数值被定义为dropout。如果不重视这一固有噪声,其必然会破坏潜在的生物信号并妨碍下游分析。因此需要针对越来越大且高维稀疏的scRNA-seq数据提出一种可扩展的去噪方法。另一方面,目前大部分的研究其特征学习和聚类任务是相互独立的,然而这种通过分步得到的聚类结果通常是次优的。本文针对以上问题,首先对scRNA-seq数据进行预处理工作以保证数据质量,包括细胞过滤、基因过滤及归一化等。然后对scRNA-seq数据的分布作出合理假设,采用零膨胀负二项分布模型(ZINB)来刻画scRNA-seq数据的生成过程。接着基于该假设提出自编码器模型的专用目标损失,以无监督的方式学习基因特异性分布参数,在实现降维的同时捕获底层真正的数据流形,从而去除dropout噪声的影响。在此基础上进一步结合深度嵌入聚类(DEC)算法,将ZINB损失与聚类损失进行集成,旨在改进嵌入表示的同时优化聚类分配,并保留模型去噪的优势。本文对自动编码器设置不同的瓶颈层大小以进行对比,并通过多次试验选择最佳的聚类数目k。最后本文应用模拟与真实数据集,通过与现有方法对比,全面评估模型性能。实验结果表明,本文模型能够更好地解释数据中的非线性关系,有效地表征过度分散和零膨胀的scRNA-seq数据,证实其对于dropout噪声具有鲁棒性,且能够改善聚类分析,增强生物发现。
其他文献
《黄帝四经》是马王堆汉墓出土的帛书,形成于战国中后期,是“黄老学”思想的代表著作。《黄帝四经》体现了“黄老思想”的复杂性,文本以老子思想为基础,依托黄帝之言,融合了上古黄帝思想、先秦儒家思想、法家思想及阴阳家思想等多种思想流派为自己所用,为应对战国中后期变法统一的需要,形成了有别于早期道家的政治哲学和君主治术,故被《汉书·艺文志》称为“黄老道家”。作为出土文物的《黄帝四经》,其文献价值很大,对战国
Sn-Bi系合金的一个明显缺点是Bi的粗化晶体,可以利用快速冷却,或者添加合金元素形成多组元合金使Bi相细化分散,来改善Bi原本的脆性。焊料合金中的Al因不同的含量可以作为软化和强化元素,可有效缓解Bi的粗化现象。In的熔点为156.6℃,在Sn-Bi合金中添加In后会降低共晶温度和熔化温度,In最大缺点是价格昂贵,可用资源不足。将Al用于改善Sn-Bi共晶焊料的组织性能研究偏少,In的研究偏多。
混凝土碳化是影响结构耐久性的重要因素,碳化使混凝土p H值降低,引起钢筋锈蚀,结构性能退化。在一般大气环境条件下,道路路面、机场道面、铁路路枕、桥梁、吊车梁、轻轨等混
无序蛋白质是蛋白质家族中的一类新成员,其灵活、可变的结构状态为它们执行多种生物功能提供了优势。对无序蛋白质结构及其相关领域的研究有助于揭示蛋白质结构折叠基础,理解蛋白质结构和功能之间的相关性。无序蛋白质结构预测研究不但有助于扩增研究样本数量,而且在建模过程中还能检验相应特征信息的有效性,进而更好地理解蛋白质的无序结构本质。鉴于无序蛋白质的重要性,无序蛋白质结构预测研究成为当前研究热点之一。本文具体
水泥基复合材料是以水泥净浆、砂浆、混凝土等作为基体,以纤维作为增强材构成的复合材料。传统混凝土材料是不连续、非均匀的准脆性材料,其内部不可避免的会产生孔隙、微裂缝等缺陷,制约了其更为广泛的应用。掺入纤维后能有效抑制裂缝的发展,极大改善混凝土材料的工作性能,但其构造和阻裂机理尚不完善,因此有必要针对其阻裂增强机理做进一步研究。本文采用理论分析和试验研究相结合的方法,探究玄武岩纤维增强水泥基复合材料的
巴贝斯虫(Babesia)是一类在世界范围内广泛引起人和多种动物发病的蜱传血液原虫。巴贝斯虫的种类繁多,宿主范围广,多数只感染野生动物和家畜,只有少数几种可以感染人并导致人患巴贝斯虫病,目前全球报道的感染人的巴贝斯虫主要包含田鼠巴贝斯虫(B.microti)、分歧巴贝斯虫(B.divengens)、邓肯巴贝斯虫(B.duncani)、牛巴贝斯虫(B.bovis)和猎户巴贝斯虫(B.venatoru
聚合物包容膜(polymer inclusion membranes,PIM)以其良好的稳定性、高选择性的传质行为,成为液膜方面的研究热点。本文通过聚甲基丙烯酸甲酯(PMMA)、苯乙烯-马来酸酐共聚物(
随着世界上各地患有AD(Alzheimer’s disease,AD)的人数字的持续增长,它们带来的经济和社会问题变得越来越严重。淀粉样蛋白(Amyloidβpeptide,Aβ)的大量沉积形成老年斑是发病的
钢筋混凝土柱考虑二阶效应的稳定计算问题涉及到多重非线性,如材料非线性和几何非线性不管是截面层次还是杆件层次都存在着,导致解析计算困难。我国现行规范《混凝土结构设计规范》GB 50010-2010虽然提供了一种计算偏心受压构件考虑二阶效应的“增大系数法”,但该方法为了能得到解析计算的相关公式,不得不对两种非线性因素作了近似简化处理,其中既可取之处亦有不合理的地方。因此,本论文对简化计算的过程从结构层
为了尽量减少化石燃料的消耗,从而减少二氧化碳的排放对全球变暖产生影响,目前正在实行道路运输电气化战略。全面电气化改造面临的主要技术障碍是探索先进的储能系统。可充锂