论文部分内容阅读
单细胞测序技术的发展产生了大量有价值的数据,其中最典型的就是单细胞RNA测序(single-cell RNA-sequencing,scRNA-seq)数据,对这些数据的分析可以识别未知的细胞亚型、研究肿瘤内的异质性、筛选肿瘤标志物等,进而为研究癌症的发生发展过程和临床诊断提供依据。研究人员针对scRNA-seq数据的研究提出了很多分析方法,其中也包括一些对scRNA-seq基因表达数据的分布进行研究的方法,但尚未有研究基因表达差异数据分布的方法。本文以scRNA-seq的基因表达差异数据为出发点,观察各阶段数据的整体分布形状,并根据各阶段数据的分布特征提出相应的分布模型。通过分布模型的参数,可以揭示肿瘤细胞间的异质性。此外,根据预先给定的阈值,本文提出的分布模型可以识别与肿瘤发生发展过程高度相关的基因。从分布的角度研究scRNA-seq数据,可以为临床研究肿瘤的发生发展过程提供依据。本文主要工作如下:(1)以慢性髓系白血病(chronic myeloid leukemia,CML)为例,将其scRNA-seq数据按不同患者不同阶段进行分组,并将各组数据与参考态数据作差得到相应的基因表达差异数据,分析各阶段基因表达差异数据的分布特点,发现数据表现出某种规律。分布的左侧都呈现出尖峰重尾的特征,而右侧类似于指数分布。单一的分布很难去刻画这种尖峰重尾和不对称的特征,因此本文构建了线性稳定指数分布(linear stable exponential distribution,LSED)模型去拟合这种特征。比较拟合密度曲线、拟合优度检验的结果与均方根误差(root mean square error,RMSE)都表明,LSED的拟合效果优于稳定(stable)分布和柯西(Cauchy)分布。进一步的分析发现,LSED模型的参数随着CML的进展表现出一定的趋势。在BCR-ABL+干细胞中,参数值表现出递增的趋势,而在BCR-ABL-干细胞中没有显著变化。基因集富集分析(gene set enrichment analysis,GSEA)结果表明,与BCR-ABL-干细胞相比,BCR-ABL+干细胞中的基因在与CML有关的增殖、分化、凋亡和细胞周期有关的通路中高度富集。这说明,LSED模型的参数可以揭示CML中干细胞的异质性。(2)基于(1)的分析,探究其他癌症的scRNA-seq数据的分布模型。对于结直肠癌(colorectal cancer,CRC)的scRNA-seq数据,设定一个合适的阈值,在过滤掉低表达数据之后按不同细胞类型不同癌症阶段进行分类,并得到相应的基因表达差异数据。观察各阶段数据的分布形状,发现分布的左侧仍然表现出尖峰重尾的特征,而分布的右侧近似服从正态分布。本文构建了混合稳定正态分布(mixed stable normal distribution,MSND)模型去拟合CRC的各阶段数据,并将拟合的效果与stable分布、Cauchy分布进行比较。比较拟合密度曲线、拟合优度检验的结果与RMSE都表明,MSND的拟合效果优于stable分布和Cauchy分布。此外,在不过滤低表达数据的情况下,本文基于所有的表达数据研究了相应的基因表达差异数据的分布模型。分布的左侧仍然表现出尖峰重尾的特征,而分布的右侧近似服从指数分布,因此本文构建了混合稳定指数分布(mixed stable exponential distribution,MSED)模型去拟合这种特征。比较拟合密度曲线、拟合优度检验的结果与RMSE都表明,MSED模型的拟合效果优于stable分布和Cauchy分布。进一步的分析发现,MSND模型与MSED模型的参数在不同阶段的细胞中表现出不同的趋势。GSEA结果表明,这些细胞的富集情况不同,这说明模型的参数可以反映肿瘤内细胞的异质性。此外,给定一个分位数阈值对,MSND模型与MSED模型可以筛选差异表达基因。功能分析结果表明,这些基因与CRC的发生发展高度相关。进一步分析可知,基于不过滤低表达数据构建的MSED模型效果优于过滤了低表达值的MSND模型。另外,对于CML与CRC,MSED模型的拟合也都优于LSED模型。