论文部分内容阅读
在过去的20年里,对基因表达谱数据的分析一直以来是统计学、计算机科学、生物信息学相互交叉的重要研究方向之一。对基因表达谱数据集进行分析可以揭示基因组信息与表型之间的联系,随着高通量技术的进一步发展,测量样品中全部mRNA表达水平的成本越来越低,使得基因表达谱技术的应用也越来越广泛,由此,微阵列实验得到了大量的数据集,对基因表达谱数据选择合适的统计方法已经成为一个相当重要的课题。帕金森病是一种由黑质中多巴胺能神经元死亡引起的神经退行性疾病,而胃癌是一种常见的癌症,是由细胞异常生长引起的,也就是说,帕金森病具有细胞死亡的特点,胃癌具有细胞增殖的特点,因此帕金森病和胃癌是两种截然不同的疾病。一项流行病学研究表明,帕金森病患者患胃癌的风险相对较低。本文旨在从两个不同分析角度对基因表达谱数据集进行分析,以探讨胃癌和帕金森病之间的关系。本文基于两个不同的分析角度,首先,对胃癌和帕金森病基因表达谱进行基因差异表达分析(使用limma包提供的稳健t检验),其次对胃癌和帕金森病基因表达谱进行加权基因共表达网络分析(WGCNA)。前者是单基因分析方法,对数据集中的每个基因逐个进行检验,后者是一种系统生物学的方法,将数据集中的全部基因都考虑进来,一起进行分析。本文使用来自GEO数据库的胃癌肿瘤基因表达谱数据集和帕金森病基因表达谱数据集,共收集到53个来自胃癌肿瘤的样本,53个来自胃癌癌旁健康组织的样本,66个来自帕金森病患者血液的样本以及60个来自健康对照人群血液的样本。对胃癌基因表达谱和帕金森病基因表达谱分别使用基因差异表达分析(limma包提供的稳健t检验),设置筛选差异表达基因的阈值为校正的P值小于0.05,确定了胃癌肿瘤组织和胃癌癌旁健康组织之间的5696个差异表达的基因(3087个上调基因和2609个下调基因),以及帕金森疾病组与健康对照组之间的16405个差异表达的基因(8594个上调的基因和7811个下调的基因)。此外,胃癌和帕金森病共有4459个重叠的差异表达基因。对胃癌和帕金森病共有差异表达基因进行富集分析,KEGG富集分析结果表明交集基因主要参与TRL信号通路、MAPK信号通路,这两个通路均与神经退行性疾病和癌症有关。对胃癌肿瘤组基因表达谱和帕金森疾病组基因表达谱分别使用加权基因共表达网络分析(WGCNA),以此构建胃癌肿瘤组加权基因共表达网络和帕金森疾病组加权基因共表达网络,对胃癌肿瘤组网络中的基因进行层次聚类,识别出20个基因模块。以胃癌肿瘤组网络为参考网络,以帕金森疾病组网络为测试网络,使用差异网路分析方法,结果表明帕金森病网络中共保留了8个胃癌肿瘤网络的模块,对这8个模块的hub基因进行功能富集分析,KEGG富集分析结果表明hub基因主要富集在细胞周期通路。我们的研究表明,胃癌和帕金森病之间具有重要的共同差异表达基因和途径。