论文部分内容阅读
慢性髓系白血病(chronic myeloid leukemia,CML)是由骨髓造血干细胞克隆增殖形成的恶性肿瘤,其发病率逐年上升。近年来国内外的研究已经发现了CML的一些生物标志物,在CML诊断、预后告知和指导治疗决策中起着重要的作用,但至今仍未能完全实现患者病情痊愈。利用基因表达数据筛选生物标志物是近年来研究生物标志物的主要途径之一。本文对CML发展各期以及治疗时的基因表达数据进行系统性分析,基于动态网络生物标志物(dynamical network biomarker,DNB)理论来识别CML各过程中的相关生物标志物。基于竞争性内源RNA(competitive endogenous RNA,ceRNA)理论,针对CML的慢性期(chronic phase,CP)、加速期(accelerated phase,AP)和急变期(blastic crisis,BC)三个阶段,构建了失调的与lncRNA相关的ceRNA网络(dysregulated lncRNA-associated ceRNA network,DLCN),并利用DNB理论识别CML发展生物标志物。另外,基于使用伊马替尼治疗CML患者各个时间点的基因表达数据,建立了基于DNB的疗效识别策略,用于监测疾病的治疗效果。根据DNB理论,构建疗效准则,并建立疗效指标(therapeutic effect index,TEI)以检测病情稳定前状态时间点,并识别疗效生物标志物。本文工作如下:(1)选取CML患者在CP期、AP期和BC期的造血干细胞(hematopoietic stem cells,HSC)基因表达数据集,对探针集重新注释从而获得相应的lncRNA和mRNA表达数据,并筛选显著差异表达(significantly differentially expressed,SDE)基因。从Tar Base v8.0数据库和starBase v2.0数据库下载经过实验验证的miRNA-mRNA相互作用,从starBase v2.0数据库下载经过实验验证的miRNA-lncRNA相互作用。通过整合lncRNA、miRNA和mRNA之间的相互调控作用以及SDE基因表达数据,构建了CML在CP期、AP期和BC期中的DLCN,并基于DNB理论,识别ceRNA网络模块,得到与CML三个阶段有关的生物标志物,同时构建检测疾病暴发的临界指标来加强结果的有效性,通过KEGG富集分析和文献挖掘验证生物标志物在CML中的作用,从ceRNA的角度加深了对CML病理的认识。识别CML病情发展中的生物标志物有助于在未来发现CML在CP期、AP期和BC期有效的生物标志物,帮助患者得到及时的治疗,控制病情的发展,从而降低CML的死亡率。(2)选取使用伊马替尼治疗CML患者的三个基因表达数据集,对原始CEL文件进行归一化,合并并消除批次效应,筛选SDE基因,运用层次聚类法进行分类,根据DNB理论构建疗效准则,识别与疗效相关的基因标志物,建立TEI来观察治疗效果动态变化,预测和确定何时处于病情稳定前状态。同时对探针集重注释获得相应的lncRNA表达谱和m RNA表达谱,筛选SDE lncRNA和SDE mRNA,并整合了lncRNA、miRNA和mRNA之间的相互调控作用以及SDE基因表达数据。从ceRNA角度,构建了使用伊马替尼治疗CML一个月的DLCN,基于疗效准则,识别ceRNA网络模块,得到与疗效相关的lncRNA、m RNA标志物,并通过鉴定ceRNA模块中mRNA显著富集的KEGG通路来分析lncRNA功能。识别疗效生物标志物有助于及时治疗患者,降低耐药性,预防治疗失败和复发,从而显著降低CML的死亡率。通过对CML的发展生物标志物(1)和疗效生物标志物(2)的对比,发现有一个基因SGMS1在CML的CP期、BC期和疗效生物标志物同时存在。这一重要发现有助于推动CML新治疗靶点的研究,为研究人员提供一定的理论方向和理论依据。