基于癌症scRNA-seq数据的基因表达差异分布模型研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:jackchenz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单细胞测序技术的发展产生了大量有价值的数据,其中最典型的就是单细胞RNA测序(single-cell RNA-sequencing,scRNA-seq)数据,对这些数据的分析可以识别未知的细胞亚型、研究肿瘤内的异质性、筛选肿瘤标志物等,进而为研究癌症的发生发展过程和临床诊断提供依据。研究人员针对scRNA-seq数据的研究提出了很多分析方法,其中也包括一些对scRNA-seq基因表达数据的分布进行研究的方法,但尚未有研究基因表达差异数据分布的方法。本文以scRNA-seq的基因表达差异数据为出发点,观察各阶段数据的整体分布形状,并根据各阶段数据的分布特征提出相应的分布模型。通过分布模型的参数,可以揭示肿瘤细胞间的异质性。此外,根据预先给定的阈值,本文提出的分布模型可以识别与肿瘤发生发展过程高度相关的基因。从分布的角度研究scRNA-seq数据,可以为临床研究肿瘤的发生发展过程提供依据。本文主要工作如下:(1)以慢性髓系白血病(chronic myeloid leukemia,CML)为例,将其scRNA-seq数据按不同患者不同阶段进行分组,并将各组数据与参考态数据作差得到相应的基因表达差异数据,分析各阶段基因表达差异数据的分布特点,发现数据表现出某种规律。分布的左侧都呈现出尖峰重尾的特征,而右侧类似于指数分布。单一的分布很难去刻画这种尖峰重尾和不对称的特征,因此本文构建了线性稳定指数分布(linear stable exponential distribution,LSED)模型去拟合这种特征。比较拟合密度曲线、拟合优度检验的结果与均方根误差(root mean square error,RMSE)都表明,LSED的拟合效果优于稳定(stable)分布和柯西(Cauchy)分布。进一步的分析发现,LSED模型的参数随着CML的进展表现出一定的趋势。在BCR-ABL+干细胞中,参数值表现出递增的趋势,而在BCR-ABL-干细胞中没有显著变化。基因集富集分析(gene set enrichment analysis,GSEA)结果表明,与BCR-ABL-干细胞相比,BCR-ABL+干细胞中的基因在与CML有关的增殖、分化、凋亡和细胞周期有关的通路中高度富集。这说明,LSED模型的参数可以揭示CML中干细胞的异质性。(2)基于(1)的分析,探究其他癌症的scRNA-seq数据的分布模型。对于结直肠癌(colorectal cancer,CRC)的scRNA-seq数据,设定一个合适的阈值,在过滤掉低表达数据之后按不同细胞类型不同癌症阶段进行分类,并得到相应的基因表达差异数据。观察各阶段数据的分布形状,发现分布的左侧仍然表现出尖峰重尾的特征,而分布的右侧近似服从正态分布。本文构建了混合稳定正态分布(mixed stable normal distribution,MSND)模型去拟合CRC的各阶段数据,并将拟合的效果与stable分布、Cauchy分布进行比较。比较拟合密度曲线、拟合优度检验的结果与RMSE都表明,MSND的拟合效果优于stable分布和Cauchy分布。此外,在不过滤低表达数据的情况下,本文基于所有的表达数据研究了相应的基因表达差异数据的分布模型。分布的左侧仍然表现出尖峰重尾的特征,而分布的右侧近似服从指数分布,因此本文构建了混合稳定指数分布(mixed stable exponential distribution,MSED)模型去拟合这种特征。比较拟合密度曲线、拟合优度检验的结果与RMSE都表明,MSED模型的拟合效果优于stable分布和Cauchy分布。进一步的分析发现,MSND模型与MSED模型的参数在不同阶段的细胞中表现出不同的趋势。GSEA结果表明,这些细胞的富集情况不同,这说明模型的参数可以反映肿瘤内细胞的异质性。此外,给定一个分位数阈值对,MSND模型与MSED模型可以筛选差异表达基因。功能分析结果表明,这些基因与CRC的发生发展高度相关。进一步分析可知,基于不过滤低表达数据构建的MSED模型效果优于过滤了低表达值的MSND模型。另外,对于CML与CRC,MSED模型的拟合也都优于LSED模型。
其他文献
福建德化东洋金矿床是我国福建金三角地区最重要的浅成热液金矿床之一,自上世纪九十年代被发现确立为大型浅成热液金矿床以来,有关其成矿作用、矿床成因属性和资源潜力倍受学
【目的】初步探讨海马TRPV4在糖尿病认知损伤小鼠中的作用及其可能机制。【方法】(1)动物分组:60只成年雄性ICR小鼠(25-35g),随机分成5组:生理盐水组(NS组)、链脲佐菌素组(ST
目的本研究通过将部分无管化经皮肾镜碎石术(Partially Tubeless Percutaneous Nephrolithotrips,PTPCNL)与加速康复理念(Enhanced Recovery After Surgery,ERAS)联合运用于
目的:本研究旨在探讨miR-339-3p对永生化胃粘膜上皮细胞GES-1增殖的影响和机制,为探讨胃癌发生发展的分子机制提供实验依据。方法:1、通过生物信息学分析,筛选SOD3基因相互作
诗人拜伦(George Gordon Byron,1788-1824)代表作《唐璜》(Don Juan)已有200年历史。其汉译研究主要以查良铮译本(1980)为主,因其富有文学性,贴合中文读者审美需求倍受学界关
目的:探讨circFBLIM1在胃癌组织和细胞中的表达及功能,并分析其在胃癌中的临床意义。方法:采用qRT-PCR法检测circFBLIM1在胃癌组织与非癌胃粘膜组织以及不同胃癌细胞与正常胃
辽河岩群是分布于辽-吉造山带中独具特色的古元古代变质岩系,经历了多期次构造和变质事件的改造,其变质作用演化对辽-吉造山带的构造演化研究具有重要意义。笔者在辽东岫岩北
成体哺乳动物的内耳无法再生毛细胞。人的毛细胞一旦受损或死亡便会造成永久性的听觉和平衡觉的功能异常,甚至会导致个体失聪、失衡。但是自然界中鸟类、两栖类和硬骨鱼类等
研究背景:穿山甲甲片及花胶作为贵重中药材,随着国民生活水平的不断提高,需求亦迅速增加,价格也随着上涨,市场上出现了大量的混伪品,于是,对甲片及花胶的准确鉴定是十分有必
目的:筛选发现基于eIF4G1为靶点对乳腺癌细胞具有放射增敏作用的候选药物并探讨增敏效应及机制研究。方法:(1)通过基因表达谱标签相似性比较途径,从GEO数据库获得沉默eIF4G1细