基于生物信息学的胰腺癌生物标志物筛选、鉴定及诊断模型构建

来源 :郑州大学 | 被引量 : 0次 | 上传用户:gengjie_1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
胰腺癌已成为严重威胁人类健康的癌症之一,其5年生存率仅4-7%。近年来,胰腺癌的诊治手段虽然得到了不断的发展,但是,由于其早期症状的隐匿性,大多数患者在初诊时已发生远处转移,失去了早期手术治疗的最佳时机。随着下一代测序技术的发展,生物信息学、多组学和机器学习等方法已成为精准医学研究的重要发展方向。因此,探索、鉴定及验证新的理想生物标志物将会对胰腺癌的诊治具有重要意义。目的1.基于生物信息学挖掘可能在胰腺癌发生和发展中发挥重要作用的生物标志物,并在细胞和组织中进行实验验证。2.结合多组学、蛋白互作网络和免疫微环境分析,探索这些标志物与胰腺癌间的内在关联,为其发生、发展过程的研究提供新的思路。3.利用机器学习构建诊断模型,为胰腺癌的诊断及个体化治疗提供理论依据。方法1.胰腺癌相关数据集的检索、下载及预处理:在GEO、ArrayExpress、TCGA、GETx和ICGC数据库中系统检索并筛选与胰腺癌相关的数据集。其中,基因芯片数据均下载CEL原始数据,转录组高通量测序(RNA sequencing,RNA-Seq)数据均下载表达计数(counts)矩阵。对下载后的数据进行质量控制、背景校正、归一化、基因注释等预处理。其中,多阵列对数健壮算法(log scale robust multi-array analysis,RMA)用于基因芯片的归一化,TPM(Transcriptspermillion)用于 RNA-Seq 数据的标准化,Combat 函数用于不同数据间批次效应的矫正。2.基于生物信息学筛选胰腺癌的潜在生物标志物:1)加权基因共表达网络分析(WGCNA):运用WGCNA构建胰腺癌的无尺度网络,寻找与其发生发展密切相关的生物标志物,主要通过筛选软阈值、裁剪基因模块和基因模块与临床表型的相关分析实现。并对相关模块中的基因进行GO、KEGG富集分析,以阐明这些基因参与的细胞信号通路以及这些通路在胰腺癌发生过程中的可能作用。2)确定胰腺癌的关键基因:通过Cytoscape 3.7.2软件对关键模块中的基因构建基因-基因互作网络,根据连接度degree确定胰腺癌的Hub基因。在8个独立的基因芯片数据中分别对Hub基因进行差异表达分析验证后,并在RNA-Seq数据中进行验证,从而得到关键基因。为进一步验证其在胰腺癌发生发展过程中的作用,采用Cox回归分析关键基因对患者预后的影响;最后,利用CCLE数据中的数据,分析关键基因在胰腺癌、肺癌、前列腺癌等30种癌症中的表达情况,判断关键基因在胰腺癌细胞系中的表达水平。3.基于分子生物学的实验验证:1)实时荧光定量逆转录PCR(qRT-PCR):引物通过 primer 6.0 设计,采用 qRT-PCR 检测TSPAN1,TMPRSS4,SDR16C5和CTSE在PANC-1、SW1990和AsPC-1胰腺癌细胞系中的表达,相对表达丰度通过△Ct=目的基因的Ct值-内参基因(GAPDH)的Ct值计算。2)免疫组织化学(IHC):选择70对胰腺癌组织和癌旁组织,利用IHC技术检测关键基因的蛋白表达水平,并由两名病理学专家独立对染色结果进行判读,采用的半定量评分公式是:H-score=∑pi(i+1);最后,通过配对t检验比较其表达蛋白在胰腺癌组织和癌旁组织中的表达。4.探索关键基因与胰腺癌之间的内在关联:1)基因突变、拷贝数变异和DNA甲基化分析:利用TCGA中的数据分析TSPAN1,TMPRSS4,SDR16C5和CTSE的突变图谱和拷贝数变异情况,并对拷贝数变异与基因表达进行Pearson相关分析,对DNA甲基化数据进行质控后,进行差异CpG分析。2)蛋白-蛋白互作网络(Protein-protein interaction,PPI):用STRING网站进行PPI网络分析,并对与TSPAN1,TMPRSS4,SDR16C5和CTSE相互作用的蛋白进行GO、KEGG富集分析。3)TSPAN1与KRAS、CDKN2A(p16)、TP53 和SMAD4的相关性分析:利用RNA-Seq数据,通过Pearson相关检验TSPAN1与胰腺癌的高频突变基因(KRAS、CDKN2A(p16)、TP53和SMAD4)之间的相关性,对TSPAN1可能发挥的调控作用提供更深入的分析。4)关键基因与免疫微环境关系分析:用CIBERSORT函数中的反卷积算法量化22种免疫细胞的丰度,在胰腺癌和癌旁中进行差异分析,并用Pearson相关检验TSPAN1,TMPRSS4,SDR16C5和CTSE与差异免疫细胞之间的相关性。5.基于机器学习构建胰腺癌的诊断模型:首先基于Logistic回归模型评价四个关键基因的诊断价值,随后结合机器学习和十折交叉验证进行胰腺癌诊断模型的构建,并在验证集和四种常见消化道癌症(胃癌、食管癌、肝癌和结直肠癌中)中分别评估模型的诊断性能和鉴别诊断性能。6.统计分析方法:本研究所用的统计分析均在R3.5.3软件下完成。应用的软件包主要有:affy、oligo、TCGAbiolinks、WGCNA、limma、DESeq2、edgeR、maftools、ChAMP、caret和ggplot2等60余种包。所有分析中,P<0.05代表该结果具有统计学意义。结果1.胰腺癌相关数据集的检索、下载及预处理:从 GEO 数据库中获得了 GSE28735、GSE15471、GSE16515、GSE32688、GSE71989、GSE106189、GSE62452、GSE62165、GSE32676,从 ArrayExpress 中获得了 E-MEXP-2780 和 E-MTAB-6134,从 TCGA、ICGC、GTEx 和 CCLE 中获得了胰腺癌、正常胰腺和30种癌症癌细胞的RNA-Seq数据。2.基于生物信息学筛选胰腺癌潜在生物标志物:1)WGCNA筛选得到18个基因模块,其中黄绿色模块与胰腺癌最为相关(R2=0.85,P=6.5e-49),该模块中的基因参与氧化还原酶活性、环氧合酶P450途径、糖鞘脂生物合成-乳和新乳系列通路和粘蛋白型O-聚糖的生物合成通路等方面。2)基因-基因互作分析确定了 20个Hub基因,与8个基因芯片的差异分析结果取交集后,确定了TSPAN1,TMPRSS4,SDR16C5和CTSE四个关键基因;经RNA-Seq数据的差异分析验证,四个关键基因在胰腺癌组织中均呈高表达水平,且差异具有统计学意义(P<0.05)。经Cox回归生存分析验证,在5种常见消化道癌症中,TSPAN1、TMPRSS4和SDR16C5仅与胰腺癌的生存有关;细胞水平的RNA-Seq数据也显示:TSPAN1,TMPRSS4,SDR16C5和CTSE在胰腺癌细胞中均呈高表达。3.基于分子生物学的实验验证:1)qRT-PCR结果表明:TSPAN1,TMPRSS4,SDR16C5和CTSE在三株胰腺癌细胞中均呈中、高表达丰度;其中TSPAN1和CTSE呈高表达丰度,其△Ct值均小于12。2)IHC结果显示TSPAN1、TMPRSS4、SDR16C5和CTSE在胰腺癌组织中的表达量均高于癌旁组织,差异均具有统计学意义(P<0.05)。在胰腺癌组织和癌旁组织中的表达量分别为:7.27±0.31和6.88±0.14;7.16±0.24和7.02±0.13;7.15±0.24 和 6.99±0.14;7.00±0.26 和 6.76±0.09。4.探索关键基因与胰腺癌之间的内在关联:1)基因突变分析显示:TMPRSS4,SDR16C5,CTSE在胰腺癌中存在突变(均为错义突变);拷贝数变异分析显示:TMPRSS4和CTSE的拷贝数变异与mRNA表达水平相关(P<0.05)。DNA甲基化分析发现:TSPAN1,TMPRSS4,SDR16C5和CTSE在胰腺癌组织中均呈低甲基化状态;2)PPI分析中,TSPAN1相互作用的蛋白参与了细胞周期、p53、癌症、胰腺癌等信号通路,并且,TSPAN1还参与了KRAS、SMAD4和TP53的调控。3)TSPAN1与KRA、CSDKN2A(p16)、TP53和SMAD4之间的相关性,均具有统计学意义,其相关系数分别为 0.67(P<0.001)、0.36(P<0.001)、0.48(P<0.001)、0.15(P<0.05)。4)免疫微环境分析发现:浆细胞,CD8T细胞,单核细胞,M0巨噬细胞,M1巨噬细胞,M2巨噬细胞,活化的树突状细胞在胰腺癌组织和癌旁中存在统计学差异(P<0.05),而且四个关键基因与M0巨噬细胞,M1巨噬细胞之间均存在统计学相关性(P<0.05)。5.基于机器学习构建胰腺癌的诊断模型:四个关键基因单独诊断胰腺癌的AUC均大于0.872,基于TSPAN1,TMPRSS4,SDR16C5和CTSE的八个诊断模型均显示出较高的诊断能力,准确率均在90%以上。其中随机森林、神经网络、灵活判别分析算法在验证集中的准确率高达100%,在胃癌、食管癌、肝癌和结直肠癌中的准确率均不足60%。结论1.基于生物信息学分析确定了四个与胰腺癌密切相关的关键基因:TSPAN1,TMPRSS4,SDR16C5和CTSE,并在细胞和组织中进行了实验验证,其结果和生物信息学分析一致。2.通过多组学、蛋白互作和免疫微环境的多层面的分析,揭示了关键基因与胰腺癌之间可能存在的内在关联,并发现TSPAN1在胰腺癌发生发展中可能的重要作用及临床诊疗中的潜力。为胰腺癌的发生、发展提供新的理解视角,并为胰腺癌的基础研究提供理论基础。3.基于机器学习构建了多个准确率高达90%以上的胰腺癌诊断模型,随机森林、神经网络、灵活判别分析模型在内部验证中的准确率高达100%。为胰腺癌的诊断提供了新思路,奠定理论基础。
其他文献
为了满足低收入者的基本住房需求,政府可以为其提供公租房。从经济学上来讲,公租房是政府提供给低收入者的一种实物社会转移。出于激励相容原理,为了有效区分公租房市场与商
随着社会经济的发展,物流信息管理系统对于企业发展来说,具有重要意义。现代化企业发展过程中,建立有效的物流信息管理系统,实现对物流渠道的有效管理,是当下商品经济必须考
推动互联网与税收工作的深入融合和创新发展,以"互联网+"为税收工作加力、增势、提效,是提升税收治理能力、实现税收现代化的必由之路。税收风险管理是国际税收管理的发展趋
伴随着人们生活水平的提高,生活的便捷性显得尤为重要,导致电子商务O2O平台的兴起,而O2O平台从最初导流为主再到发展服务性直至现在的垂直细分市场,都让O2O平台产生革命性变
本学位论文的研究目的是使低纬子午环配备科学CCD的方案得以实现。文中详细讨论了低纬子午环配备CCD后的方位、高度和CCD跟踪这三个传动控制系统的基本要求,指出了原系统中存
主汽温度控制是非线性,强稱合,大滞后的时变系统,影响因素多,控制难度大;而且要降低机组煤耗,实现节能减排。针对这一问题,该文设计了串级双回路控制系统,并且引入前馈信号和
为准确预测量化我国职业病的发病趋势,在灰色GM(1,1)模型的基础上结合马尔科夫过程构建灰色GM(1,1)-马尔科夫预测模型,探讨灰色GM(1,1)-马尔科夫模型在职业病预测领域的应用
<正>山核桃是歙县较优势的产业之一,已成为主产区农民致富,建设社会主义新农村的经济支柱。在基地快速发展的同时,也出现了山核桃单一纯林面积过大、地表长期裸露较多、土壤
随着燃油经济性和排放法规的日益严格,发展高效清洁船用气体发动机技术成为世界船舶发动机行业的研究热点。稀燃技术能够有效提高燃料燃烧效率,降低NOX的排放,因此成为满足TI
搅拌摩擦焊接技术是一种新型高效的固态焊接技术,成功解决了许多传统上难焊、不可焊的材料连接技术的难题。这一技术目前广泛应用于铝合金和其他材料的焊接。2195铝锂合金是第三代铝合金的典型代表,应用前景广阔,目前国内受到生产技术的限制,通常将其与2219铝铜合金联合使用。但目前2195自身搅拌摩擦焊接工艺以及2195-2219异种搅拌摩擦焊接工艺技术还很不成熟。对于这两类焊缝组织在不同焊接参数条件下的组