论文部分内容阅读
背景:动脉粥样硬化(Atherosclerosis, AS)是一种累及全身动脉血管的非炎症性、退行性和增生性病变,缺血性脑血管病的一个重要危险因素是颈动脉粥样硬化导致的颈动脉狭窄,其临床治疗及愈后并不十分理想。目前公认,从免疫机制方面研究某种疾病对早期诊治有重要意义,基于单个基因研究颈动脉粥样硬化分子机制已有报道,但是对于基因间互作及基因功能富集分析目前研究还很少。我们主要通过生物芯片分析和文本挖掘技术发掘在颈动脉粥样硬化发展过程中发挥重要作用的基因和通路,期望其对早期诊断和治疗颈动脉粥样硬化具有指导意义。方法:本次研究从基因表达数据库GEO数据库中下载编号为GSE28829的基因芯片,共包括29个组织样品,其中包括13个早期人类颈动脉粥样硬化斑块组织样本和16个晚期人类颈动脉粥样硬化斑块组织样本。所用的平台是GPL570[HG-U133Plus2] Affymetrix Human Genome U133Plus2.0Array。为了对早期和晚期的人类颈动脉粥样硬化斑块组织样本进行差异表达基因筛选和分析,我们用R语言的LIMMA包方法对人类颈动脉粥样硬化斑块组织样本进行差异表达基因分析,我们选取FDR值小于0.05且|logFC|大于1作为筛选差异表达基因的阈值标准。我们对筛选得到的差异表达基因进行主成分(PCA,principal componentanalysis)分析,观测所有样本的区别程度。我们将差异表达的基因分成上调表达基因和下调表达基因集合,利用数据库COXPRESdb中的信息构建差异表达基因共表达网络。计算差异表达基因之间的共表达系数,我们保留共表达系数得分高于0.8的作用对。我们将构成共表达网络的所有差异表达基因投入到DAVID软件中进行GO功能注释分析和KEGG(Kyoto Encyclopedia of Genes and Genomes)通路富集分析,保留FDR(false discovery rate)从小到大排序的前10位的功能节点。通过采用R包差异共表达基因(differentally co-expressed genes,DCG)分析对已有的差异表达基因中构建差异共表达网络,筛选差异共表达基因,选取adjustedp-value<0.05作为筛选差异共表达基因的阀值。随后又对差异共表达基因进行了功能分析,并且通过构建DCGs-pathway网络研究这些差异共表达基因可能影响的生物学通路。文本挖掘能够发现文本信息中的规律和趋势信息,对用户有较大的用处和帮助。本研究利用基于自然语言处理方法的文本挖掘技术对动脉粥样硬化相关疾病进行分子网络分析。我们通过小鼠基因信息学(Mouse Genome Informatics,MGI)数据库查找动脉粥样硬化相关的哺乳动物表型(Mammalian Phenotype,MP),以及引起MP的突变基因,然后找出人类动脉粥样硬化相关的重要基因。再根据得到的分子作用关系,构建与动脉硬化相关的突变基因的分子作用网络,并且对这个网络进行模块分析和功能富集分析。结果:1.我们首先对13个早期人类颈动脉粥样硬化斑块和16个晚期人类颈动脉粥样硬化斑块组织样本基因表达谱进行分析,选取差异表达基因,共筛选得到了319个差异表达基因(FDR<0.05及|logFC|>1),包括267个上调差异表达基因和52个下调差异表达基因;对筛选得到的差异表达基因进行PCA分析,结果显示这些差异表达基因的特征性足以区别早期和晚期的颈动脉粥样硬化斑块组织样本。在差异表达基因的共表达网络中,我们共得到了48个节点和84对共表达作用对,且构成共表达网络的差异表达基因都是上调表达的基因,其中连接度最高的节点为基因TYROBP;对差异表达基因进行GO功能分析,结果显示共表达网络中的差异表达基因均与免疫功能相关。差异表达基因富集的最显著的生物学功能是免疫应答,共有18个差异表达基因富集在这个生物学功能上;对筛选得到的与人类颈动脉粥样硬化斑块有关的319个差异表达基因进行KEGG通路富集分析,结果显示,差异表达基因显著富集的信号通路是抗原加工和提呈通路。富集在该通路的差异表达基因共有6个:IFI30,CTSS(Cathepsin S),HLA(Human leukocyte antigen)-DMB,HLA-DMA,CD(Cluster of Differentiation)74和HLA-DRA。其中HLA-DMB,HLA-DMA,HLA-DRA是与免疫应答功能富集的差异表达基因重合的。2.我们通过差异共表达分析共得到45个差异共表达基因DCGs,主要参与免疫反应,应激反应以及细胞凋亡等生物学过程。HOPX,IGHM,SLA,CD163和IGKV1-5等DCGs直接或间接的扰动了大量的信号通络,表明这些基因表达异常在颈动脉粥样硬化过程中发挥重要作用;细胞因子-细胞因子受体相互作用通路,I型糖尿病通路,焦点连接和白细胞跨细胞迁移通路关联到大量的DCGs,表明这些信号通路在颈动脉粥样硬化过程有重要作用;3.通过文本挖掘,我们找出与人类动脉硬化疾病相关的9个突变基因分子互作关系对,构建分子互作网络图。该网络共包含1918个节点(Nodes)和4584个动脉硬化疾病分子互作关系对。MAPK8、BCL2、LEP、IL10、NOS2A、MMP9、CCL2、CD44是重要的网络节点,在网络中与大量其它节点存在相互作用关系;分子互作网络的5个聚类模块主要与补体及凝血级联反应通路,细胞外基质受体相互作用通路,焦点粘附通路,核苷酸切除修复通路和溶酶体通路相关,文本挖掘得到的突变基因通过这些通路在动脉粥样硬化过程中发挥作用。结论:我们通过生物芯片分析和文本挖掘技术发掘在颈动脉粥样硬化发展过程中发挥重要作用的基因和通路,为以后研究颈动脉粥样硬化发病机制奠定了基础。本研究结果与前人研究成果一致,都证实了免疫反应在颈动脉粥样硬化发病机制中发挥重要作用。筛选得到的差异表达基因都是与免疫反应有关。本研究还发现抗原加工和提呈通路,补体及凝血级联反应通路,细胞外基质受体相互作用通路,焦点粘附通路,核苷酸切除修复通路和溶酶体通路是颈动脉粥样硬化发病机制中的重要通路。在抗原加工和提呈通路和免疫功能都富集的基因是HLA-DMB,HLA-DMA,HLA-DRA,重要的差异共表达基因HOPX,IGHM,SLA,CD163和IGKV1-5,分子相互作用网路重要节点MAPK8,BCL2,LEP,IL10,NOS2A,MMP9,CCL2,CD44在颈动脉粥样硬化发展过程中发挥重要作用,可以作为区别和检测早、晚期颈动脉粥样硬化的基因标志物。本文研究结果为从免疫机制方面研究颈动脉粥样硬化提供方向,为开发新的治疗动脉粥样硬化药物和治疗方法提供了靶点。本研究的发现丰富了人们对颈动脉粥样硬化分子机制的了解,为以后的研究奠定了基础。