【摘 要】
:
单细胞RNA测序(scRNA-seq)技术能够在单个细胞水平上测量分子的转录表达量,为从细胞层面上研究复杂疾病与生命活动提供数据基础。然而,scRNA-seq数据由于测序技术的限制而存在高噪音、高稀疏化等数据偏差,这些偏差给设计开发数据分析方法提出了巨大的计算挑战。为了削弱scRNA-seq数据偏差的影响,本文利用分子特征提取与样本关系捕获的内在关联性,提出了特征提取嵌入的自表征学习方法(scDA
论文部分内容阅读
单细胞RNA测序(scRNA-seq)技术能够在单个细胞水平上测量分子的转录表达量,为从细胞层面上研究复杂疾病与生命活动提供数据基础。然而,scRNA-seq数据由于测序技术的限制而存在高噪音、高稀疏化等数据偏差,这些偏差给设计开发数据分析方法提出了巨大的计算挑战。为了削弱scRNA-seq数据偏差的影响,本文利用分子特征提取与样本关系捕获的内在关联性,提出了特征提取嵌入的自表征学习方法(scDA),用于细胞类型的识别与注解研究。该方法借助降维技术与自表征模型将特征提取与样本关系学习这两个不同的学习任务统一到一个数学模型,进而精确地学习细胞-细胞表征关系与相应的分子特征判别矩阵,实现scRNA-seq数据的细胞聚类分析与细胞类型注释等研究任务。为了说明该方法的有效性,本文分别在小规模与大规模两类基准数据集上进行验证工作。首先,在小规模数据集上,scDA在细胞聚类精度方面相比于其他方法有着明显的提升,并分析与讨论了相应的判别矩阵对细胞类型的区分能力。而后,scDA方法被应用到大规模数据的细胞类型识别研究,并验证了scDA在不需要细胞类型先验知识的情况下,利用判别矩阵能够使用少量的样本对大规模数据的细胞类型进行精确地注释,说明了scDA在大规模数据上也具有很强的适用性。最后,本文将scDA应用到不同平台、来源的scRNA-seq数据集,比如,分别在具有明显批次效应的人类胰腺scRNA-seq数据集与来自不同个体的人类骨髓scRNA-seq数据集上做了应用分析。结果表明,scDA在人类胰腺scRNA-seq数据集上能够精确地区分出具有明显细胞数量差异的6种细胞类型;scDA学习到的判别矩阵能够辅助显示出人类骨髓数据集中4个细胞谱系之间的分化结构,并且该分化结构能够被高表达的标记基因证实,具有良好的生物可解释性。因此,在真实的医学数据上,scDA方法能够克服数据批次效应的影响,为细胞类型的识别与可视化研究提供有力的支持。综上所述,本文提出了针对单细胞数据分析的scDA方法及其相应的分析流程,在小规模和大规模的基准数据集上验证了scDA方法在细胞聚类分析与细胞类型注释等方面的性能,并将scDA应用于跨平台、来源的真实scRNA-seq数据集时,说明了scDA方法能够克服批次效应等现实因素影响,提供精确的细胞类型识别、可视化和可解释性等功能,进一步证明了scDA具有很强的实际应用价值。
其他文献
我国虽然地域辽阔,但水资源分布不均,每年部分地区时常有旱涝灾害事件的发生。旱涝灾害的发生会严重危害河道周围居民的生命安全和财产安全,甚至会对下游的城市建设带来灾害性的影响。因此,对河道水位的监测十分重要。科学技术在不断发展,水位监测系统也要基于先进的科学技术,提高现代化和自动化水平。目前我国河道水位监测方式相对落后,一般需要人工到现场测量、记录和上报,不仅需要相当大的人力,而且效率十分低,不能实现
在空间环境中电磁波的传播会受到大气介质的影响,使电磁波会发生一系列反射、折射、散射和吸收等现象。在一定气象条件的影响下电磁波会有一部分陷获在大气层中,这部分电磁波的衰减较小且可以不受地球曲率影响,从而可以实现大气波导传播。大气波导发生时会导致雷达盲区的出现和雷达杂波的增强,当雷达以某种频率和小于临界角的某个仰角角度发射时既可以实现雷达的超视距探测还可以实现扩大雷达的探测范围。目前,在实现超视距探测
2011年至今,Pseudorabies virus(PRV)变异毒株引起国内许多Bartha-K61免疫猪场频繁爆发伪狂犬病,相比经典PRV,变异毒株表现出更强的毒力和致病力,对我国养猪业造成了巨大经济损失。且PRV已显示出其在中国引起人类感染的能力,因此采取行动控制PRV的传播并最终实现该病的根除对养猪业和人类健康都具有重要意义。通过互联网+技术与伪狂犬病毒研究相结合,建立一个自主版权的PRV
校园欺凌问题作为困扰青少年成长,影响青少年身心健康及社会和谐稳定的棘手问题,对青少年造成的负面影响是长期且持续的。校园欺凌问题存在人为因素和环境因素,同时更为关键的是人境互动问题,校园欺凌治理需要社会工作的专业力量介入。小组社会工作作为校园欺凌治理的一种策略和方法正在发挥积极正向的专业优势和干预效果。初中生校园欺凌治理的小组工作介入研究采用问卷调查、半结构访谈及参与式观察等研究方法,分析校园欺凌事
在哺乳动物胚胎发育过程中,背部真皮细胞、骨骼肌细胞和棕色脂肪细胞都来源于一群相同的多潜能祖细胞,骨骼肌干细胞和棕色脂肪细胞在发育谱系中联系紧密并且能够互相转化。而棕色脂肪组织具有加快人体新陈代谢,以热量的形式消耗化学能的特点,在预防肥胖和糖尿病方面有重要作用。基于细胞疗法将成人肌肉细胞重编程为棕色脂肪细胞,能够为治疗Ⅱ型糖尿病及心血管疾病等肥胖并发症提供替代细胞来源,具有重要的临床应用潜力。PR结
药用植物的培育和大规模种植在生物与医药领域更具有现实意义。借助物联网、深度学习等计算机技术来实现药用植物的自动化管理和种植是优化药用植物培育的有效思路。实际上,物联网这一概念自提出以来,便获得了各行业的广泛关注,这也为物联网在多领域发展提供了基础。在植株生长监测方面,物联网已经涵盖了越来越多的领域包括大棚种植、气候因素采集、气候预测等。物联网的发展也为药用植物种植领域在提高产量和增加产业效益上提供
我国敬老院的发展是基于农村地区的“五保”政策,农村敬老院的主要支持者是政府,在政府的大力支持下敬老院得到快速发展。随着增多的老年人口,农村敬老院可以发挥很好的作用,但是由于农村基础差、发展慢,敬老院单靠政府的支持是远远不够的,农村敬老院的发展需要拓展思路,要全方位的融入社会力量,以促进农村敬老院的可持续发展。农村敬老院面对的主要人群是农村五保户群体,主要以国家财政作为基础,由于人口老龄化的压力,财
大量的化合物-蛋白质互作(Chemical-protein interaction,CPI)关系隐藏在生物医学文献中,这些生物实体之间的关系对药物发现、临床医学和结构化生物医学数据库的构建起到重要作用。然而手工提取CPI既昂贵又费时,因此应用自然语言处理(Natural language processing,NLP)技术从生物医学文献中自动提取CPI关系是一项重要且有应用价值的任务,并且此项研究
改革开放以来,我国经济的快速发展推动了大量的农村劳动力人口向城市转移。在此背景下,越来越多的农村青少年跟随父母搬到城市生活和学习,导致城市随迁青少年的数量持续增多,已成为人数庞大的流动群体,在社会融入过程中存在的问题愈发凸显,越来越受到社会各界的关注和重视。随迁青少年具备“随迁”和“青少年”的双重属性。由于对新的生活环境不熟悉,缺乏交往自信,他们往往存在情绪管理不善、人际交往能力低下、社会融入不良
药物研发是一个高成本、长耗时、范围广且低效率的研发系统工程。浩如烟海的药物种类与错综复杂的作用机制更是使得药物研发过程步履维艰。目前存在多种形式类型的药物网络,例如药物-靶标互作网络,药物-路径关联网络等。从目前已知的药物网络中探索尚未被发现的药物-靶标互作关系具有极高的研究价值。目前,绝大多数预测方法是将药物关系建模为同质信息网络并对其进行研究。然而,药物-靶标由于其种类、联系的多样性,自然地构