论文部分内容阅读
摘要:肺动脉高压(pulmonary arterialhypertension,PAH)是一种严重的心血管疾病,发病机制复杂,分子机制尚未完全阐明,临床死亡率仅次于肿瘤与心肌梗死,严重威胁人类的生命健康。因此,需要更多的方法来探究PAH的分子机制,挖掘影响其发生的关键因子。该文将PAH疾病的分子研究与加权基因共表达网络(WGCNA)相结合,通过构建PAH加权基因共表达网络,探讨其潜在生物标志物,筛选可能与PAH显著相关的关键基因,为PAH的预防及早期治疗提供理论与实践基础。
关键词:PAN;WGCNA;关键基因;生物标志物
中图分类号:TP391文献标识码:A
文章编号:1009-3044(2020)15-0008-02
1背景
PAH是一种病因不明、受遗传与环境等多因素共同影响的综合征。其特征是肺动脉压力和血管阻力增加导致右心衰竭和死亡,诊断后平均生存时间为2.8年。近年来,随着对PAH发病机制的深入研究,发现遗传因素在其发病中起着重要作用。目前,仍存在治疗难度大、药物敏感性低及预后极差的问题,因此需要更多方法来发现潜在的关键(枢纽)基因,进而揭示其分子机制,进而降低其死亡率。WGCNA是一种系统生物学方法,是以基因间表达相似性为基础来实现基因网络构建的算法,常用来探索基因和表型之间复杂关系,不仅可以筛选具有价值的生物标志物或靶位点的鉴定,还具有揭示生物学规律、疾病关键驱动因子和药物作用机理的功能。在本研究中,我们利用GEO数据库中的PAH表达谱数据构建了加权基因共表达网络,筛选可能影响PAH疾病发生的关键因子,为实现PAH的早期预防与及时治疗提供理论基础。
2材料与方法
2.1数据来源及数据预处理
本文的PAH基因表达谱数据fGSEll7261)来自GEO数据库(http://www.ncbi.nlm.nih.gov/geo,),包含25个正常人类样本,和58个PAH样本,平台为GPL6244。本研究使用R编程语言(v3.6.2),Bioconductor软件包和WGCNA軟件包进行数据分析。
2.2共表达网络的构建和模块构建
我们使用R中的WGCNA软件包来构建PAH加权基因共表达网络。首先,计算所有基因对的相关性构建Pearson相关矩阵,如公式(1)。然后,使用幂函数nil=Allg将相关矩阵转换为邻接矩阵,其中β是一个可以强调强相关性的软阈值,软阈值p可以使网络符合标准的无尺度网络,从而实现无标度拓扑。第三,将邻接矩阵转换为拓扑重叠矩阵(TOM),如公式(2),并计算基因间相异度矩阵dissTOM=1-TOM,对dissTOM层次聚类得到系统聚类树,即将具有相似表达的基因分为同簇。第四,通过dynamic Tree Cut动态剪枝算法来区分共表达模块,其中min-ModuleSize为50,deepSplit为2,其他参数设置为默认值,并计算代特征向量值(ME),通过聚类合并具有高度相似的模块,便可得到基因模块。
其中,Bij表示基因i和基因j之间的邻接系数;lij表示基因i与基因i所有共同相邻基因的邻接系数的乘积之和;ki代表基因i与所有相邻节点的邻接系数综合。若值为0,表示这两个基因都是孤立的。若值是1,表示这两个基因与所有基因都是相邻的。
2.3筛选共表达网络关键模块
本文将使用两种方法来鉴别与高血压相关的模块。第一种方法,计算各模块的模块特征基因(module eigengene,ME)与疾病性状皮尔森相关系数及其P值来确定关键模块;第二种方法,通过计算基因显著性(Gene Significance,GS)和模块显著性(Module Significance,MS)来确定关键模块。GS是指基因的表达量与某一临床信息的皮尔森相关系数,MS是指模块中所有基因的GS的平均值。一般所有模块MS与GS的绝对值越大,说明与PAH疾病越相关。
2.4鉴定关键模块的枢纽基因
模块的枢纽基因是与疾病最紧密相关的基因,通常具有更大的生物学意义。Gs表示了基因在各种网络中的重要性,模块身份(Modularmembership,MM)用来衡量基因在模块内的重要性,基因之间的权重显著性p.weighted可以通过WGCNA包中的networkScrenningO函数计算得到。为了鉴定出更加可靠的关键基因,我们再次采用网络的最大集团度(MCC),如公式(3)。筛选关键模块中的枢纽基因,最后将两种方法的共同基因作为关键基因。
3结果
3.1芯片数据预处理
我们使用R软件和limma软件包对数据进行校正批处理、去除空探针及重复基因。根据映射的探针确定了每个基因的表达值,如果多个探针映射到同一基因,则最大值表达值用于表示该基因的表达水平。最后,获得了20359个基因的表达谱。对表达谱矩阵进行标准差(sD)排序,选取前5000个基因作为共表达网络构建的输人数据,进行聚类分析,发现去除离群样本GSM3290090。
3.2并加权共表达网络的构建
软阈值的选择是构建WGCNA的关键。我们对从1到20的阈值进行了网络拓扑分析,发现当B=6时,满足无标度网络条件。通过层次聚类将具有相似表达的基因分组为同一模块,同时将切割线MEDissThres设置为0.2来合并模块,鉴定了17个基因模块。
3.3确定关键基因模块
我们通过第一种方法得到从模块purple和pink与PAH相-关性系数分别为-0.77,0.64,其绝对值大于其他模块的相关系数(图1),且P值都小于0.01,因此推断这两个模块与PAH最相关,且分别与PAH在显著的负相关和正相关,即前者模块中的基因可能抑制PAH的发生,后者可能促进PAH的发生。为保证关键模块筛选的准确性,我们用另一种方法重新筛选关键模块,结果表明purple和pink模块的GS绝对值最大(图2)。用上述两种不同方法筛选结果相同,因此purple和pink模块为关键模块。
3.4与PAH发生相关的枢纽基因
在本研究中,首先以|MM|
关键词:PAN;WGCNA;关键基因;生物标志物
中图分类号:TP391文献标识码:A
文章编号:1009-3044(2020)15-0008-02
1背景
PAH是一种病因不明、受遗传与环境等多因素共同影响的综合征。其特征是肺动脉压力和血管阻力增加导致右心衰竭和死亡,诊断后平均生存时间为2.8年。近年来,随着对PAH发病机制的深入研究,发现遗传因素在其发病中起着重要作用。目前,仍存在治疗难度大、药物敏感性低及预后极差的问题,因此需要更多方法来发现潜在的关键(枢纽)基因,进而揭示其分子机制,进而降低其死亡率。WGCNA是一种系统生物学方法,是以基因间表达相似性为基础来实现基因网络构建的算法,常用来探索基因和表型之间复杂关系,不仅可以筛选具有价值的生物标志物或靶位点的鉴定,还具有揭示生物学规律、疾病关键驱动因子和药物作用机理的功能。在本研究中,我们利用GEO数据库中的PAH表达谱数据构建了加权基因共表达网络,筛选可能影响PAH疾病发生的关键因子,为实现PAH的早期预防与及时治疗提供理论基础。
2材料与方法
2.1数据来源及数据预处理
本文的PAH基因表达谱数据fGSEll7261)来自GEO数据库(http://www.ncbi.nlm.nih.gov/geo,),包含25个正常人类样本,和58个PAH样本,平台为GPL6244。本研究使用R编程语言(v3.6.2),Bioconductor软件包和WGCNA軟件包进行数据分析。
2.2共表达网络的构建和模块构建
我们使用R中的WGCNA软件包来构建PAH加权基因共表达网络。首先,计算所有基因对的相关性构建Pearson相关矩阵,如公式(1)。然后,使用幂函数nil=Allg将相关矩阵转换为邻接矩阵,其中β是一个可以强调强相关性的软阈值,软阈值p可以使网络符合标准的无尺度网络,从而实现无标度拓扑。第三,将邻接矩阵转换为拓扑重叠矩阵(TOM),如公式(2),并计算基因间相异度矩阵dissTOM=1-TOM,对dissTOM层次聚类得到系统聚类树,即将具有相似表达的基因分为同簇。第四,通过dynamic Tree Cut动态剪枝算法来区分共表达模块,其中min-ModuleSize为50,deepSplit为2,其他参数设置为默认值,并计算代特征向量值(ME),通过聚类合并具有高度相似的模块,便可得到基因模块。
其中,Bij表示基因i和基因j之间的邻接系数;lij表示基因i与基因i所有共同相邻基因的邻接系数的乘积之和;ki代表基因i与所有相邻节点的邻接系数综合。若值为0,表示这两个基因都是孤立的。若值是1,表示这两个基因与所有基因都是相邻的。
2.3筛选共表达网络关键模块
本文将使用两种方法来鉴别与高血压相关的模块。第一种方法,计算各模块的模块特征基因(module eigengene,ME)与疾病性状皮尔森相关系数及其P值来确定关键模块;第二种方法,通过计算基因显著性(Gene Significance,GS)和模块显著性(Module Significance,MS)来确定关键模块。GS是指基因的表达量与某一临床信息的皮尔森相关系数,MS是指模块中所有基因的GS的平均值。一般所有模块MS与GS的绝对值越大,说明与PAH疾病越相关。
2.4鉴定关键模块的枢纽基因
模块的枢纽基因是与疾病最紧密相关的基因,通常具有更大的生物学意义。Gs表示了基因在各种网络中的重要性,模块身份(Modularmembership,MM)用来衡量基因在模块内的重要性,基因之间的权重显著性p.weighted可以通过WGCNA包中的networkScrenningO函数计算得到。为了鉴定出更加可靠的关键基因,我们再次采用网络的最大集团度(MCC),如公式(3)。筛选关键模块中的枢纽基因,最后将两种方法的共同基因作为关键基因。
3结果
3.1芯片数据预处理
我们使用R软件和limma软件包对数据进行校正批处理、去除空探针及重复基因。根据映射的探针确定了每个基因的表达值,如果多个探针映射到同一基因,则最大值表达值用于表示该基因的表达水平。最后,获得了20359个基因的表达谱。对表达谱矩阵进行标准差(sD)排序,选取前5000个基因作为共表达网络构建的输人数据,进行聚类分析,发现去除离群样本GSM3290090。
3.2并加权共表达网络的构建
软阈值的选择是构建WGCNA的关键。我们对从1到20的阈值进行了网络拓扑分析,发现当B=6时,满足无标度网络条件。通过层次聚类将具有相似表达的基因分组为同一模块,同时将切割线MEDissThres设置为0.2来合并模块,鉴定了17个基因模块。
3.3确定关键基因模块
我们通过第一种方法得到从模块purple和pink与PAH相-关性系数分别为-0.77,0.64,其绝对值大于其他模块的相关系数(图1),且P值都小于0.01,因此推断这两个模块与PAH最相关,且分别与PAH在显著的负相关和正相关,即前者模块中的基因可能抑制PAH的发生,后者可能促进PAH的发生。为保证关键模块筛选的准确性,我们用另一种方法重新筛选关键模块,结果表明purple和pink模块的GS绝对值最大(图2)。用上述两种不同方法筛选结果相同,因此purple和pink模块为关键模块。
3.4与PAH发生相关的枢纽基因
在本研究中,首先以|MM|