基于加权基因共表达网络(WGCNA)挖掘肺动脉高压疾病的关键基因

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:dingsiwei2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:肺动脉高压(pulmonary arterialhypertension,PAH)是一种严重的心血管疾病,发病机制复杂,分子机制尚未完全阐明,临床死亡率仅次于肿瘤与心肌梗死,严重威胁人类的生命健康。因此,需要更多的方法来探究PAH的分子机制,挖掘影响其发生的关键因子。该文将PAH疾病的分子研究与加权基因共表达网络(WGCNA)相结合,通过构建PAH加权基因共表达网络,探讨其潜在生物标志物,筛选可能与PAH显著相关的关键基因,为PAH的预防及早期治疗提供理论与实践基础。
  关键词:PAN;WGCNA;关键基因;生物标志物
  中图分类号:TP391文献标识码:A
  文章编号:1009-3044(2020)15-0008-02
  1背景
  PAH是一种病因不明、受遗传与环境等多因素共同影响的综合征。其特征是肺动脉压力和血管阻力增加导致右心衰竭和死亡,诊断后平均生存时间为2.8年。近年来,随着对PAH发病机制的深入研究,发现遗传因素在其发病中起着重要作用。目前,仍存在治疗难度大、药物敏感性低及预后极差的问题,因此需要更多方法来发现潜在的关键(枢纽)基因,进而揭示其分子机制,进而降低其死亡率。WGCNA是一种系统生物学方法,是以基因间表达相似性为基础来实现基因网络构建的算法,常用来探索基因和表型之间复杂关系,不仅可以筛选具有价值的生物标志物或靶位点的鉴定,还具有揭示生物学规律、疾病关键驱动因子和药物作用机理的功能。在本研究中,我们利用GEO数据库中的PAH表达谱数据构建了加权基因共表达网络,筛选可能影响PAH疾病发生的关键因子,为实现PAH的早期预防与及时治疗提供理论基础。
  2材料与方法
  2.1数据来源及数据预处理
  本文的PAH基因表达谱数据fGSEll7261)来自GEO数据库(http://www.ncbi.nlm.nih.gov/geo,),包含25个正常人类样本,和58个PAH样本,平台为GPL6244。本研究使用R编程语言(v3.6.2),Bioconductor软件包和WGCNA軟件包进行数据分析。
  2.2共表达网络的构建和模块构建
  我们使用R中的WGCNA软件包来构建PAH加权基因共表达网络。首先,计算所有基因对的相关性构建Pearson相关矩阵,如公式(1)。然后,使用幂函数nil=Allg将相关矩阵转换为邻接矩阵,其中β是一个可以强调强相关性的软阈值,软阈值p可以使网络符合标准的无尺度网络,从而实现无标度拓扑。第三,将邻接矩阵转换为拓扑重叠矩阵(TOM),如公式(2),并计算基因间相异度矩阵dissTOM=1-TOM,对dissTOM层次聚类得到系统聚类树,即将具有相似表达的基因分为同簇。第四,通过dynamic Tree Cut动态剪枝算法来区分共表达模块,其中min-ModuleSize为50,deepSplit为2,其他参数设置为默认值,并计算代特征向量值(ME),通过聚类合并具有高度相似的模块,便可得到基因模块。
  其中,Bij表示基因i和基因j之间的邻接系数;lij表示基因i与基因i所有共同相邻基因的邻接系数的乘积之和;ki代表基因i与所有相邻节点的邻接系数综合。若值为0,表示这两个基因都是孤立的。若值是1,表示这两个基因与所有基因都是相邻的。
  2.3筛选共表达网络关键模块
  本文将使用两种方法来鉴别与高血压相关的模块。第一种方法,计算各模块的模块特征基因(module eigengene,ME)与疾病性状皮尔森相关系数及其P值来确定关键模块;第二种方法,通过计算基因显著性(Gene Significance,GS)和模块显著性(Module Significance,MS)来确定关键模块。GS是指基因的表达量与某一临床信息的皮尔森相关系数,MS是指模块中所有基因的GS的平均值。一般所有模块MS与GS的绝对值越大,说明与PAH疾病越相关。
  2.4鉴定关键模块的枢纽基因
  模块的枢纽基因是与疾病最紧密相关的基因,通常具有更大的生物学意义。Gs表示了基因在各种网络中的重要性,模块身份(Modularmembership,MM)用来衡量基因在模块内的重要性,基因之间的权重显著性p.weighted可以通过WGCNA包中的networkScrenningO函数计算得到。为了鉴定出更加可靠的关键基因,我们再次采用网络的最大集团度(MCC),如公式(3)。筛选关键模块中的枢纽基因,最后将两种方法的共同基因作为关键基因。
  3结果
  3.1芯片数据预处理
  我们使用R软件和limma软件包对数据进行校正批处理、去除空探针及重复基因。根据映射的探针确定了每个基因的表达值,如果多个探针映射到同一基因,则最大值表达值用于表示该基因的表达水平。最后,获得了20359个基因的表达谱。对表达谱矩阵进行标准差(sD)排序,选取前5000个基因作为共表达网络构建的输人数据,进行聚类分析,发现去除离群样本GSM3290090。
  3.2并加权共表达网络的构建
  软阈值的选择是构建WGCNA的关键。我们对从1到20的阈值进行了网络拓扑分析,发现当B=6时,满足无标度网络条件。通过层次聚类将具有相似表达的基因分组为同一模块,同时将切割线MEDissThres设置为0.2来合并模块,鉴定了17个基因模块。
  3.3确定关键基因模块
  我们通过第一种方法得到从模块purple和pink与PAH相-关性系数分别为-0.77,0.64,其绝对值大于其他模块的相关系数(图1),且P值都小于0.01,因此推断这两个模块与PAH最相关,且分别与PAH在显著的负相关和正相关,即前者模块中的基因可能抑制PAH的发生,后者可能促进PAH的发生。为保证关键模块筛选的准确性,我们用另一种方法重新筛选关键模块,结果表明purple和pink模块的GS绝对值最大(图2)。用上述两种不同方法筛选结果相同,因此purple和pink模块为关键模块。
  3.4与PAH发生相关的枢纽基因
  在本研究中,首先以|MM|
其他文献
目的:探讨紫草油联合氧气吹臀治疗新生儿尿布性皮炎的疗效。方法:采用随机原则分组,治疗组60例患儿用氧气吹臀每次20~30min,每日2次,合并紫草油外涂于患儿臀部,每日3~5次,连用5
前列腺增生是困扰老年朋友的一种常见病,几乎占所有老年外科疾病的30%,经尿道前列腺电切术(TURP)不仅创伤小,出血少,术后恢复快,并发症少,而且安全性也大,成为主要术式。但此类
随着微服务架构的兴起,越来越多的应用由单体式向微服务架构转移,由于微服务其分布式的特性,以及微服务架构自身强调数据的独立,整体的数据一致性问题被放大。该文主要针对在
肝水解肽注射液主要应用于慢性肝炎、肝硬化等疾病的辅助治疗,临床极少出现过敏反应,我科在应用时出现1例导致过敏性休克,现报告如下。1病例介绍患者,男,74岁,主因左侧鼻阈肿
摘要:当足部受力不平衡时,就会患不同种类的足病,从而导致亚健康状态的产生,故足部足型的判别是一个治疗足病的依据。而足型判别对于鞋垫建模有指向意义,鞋垫定制对于亚健康信息研究具有重要作用。因此提出一种足型判别与鞋垫定制的系統设计,该系统设计可获取足部跟腱角的角度和足底接触面情况判别足型,可通过Kinect传感器采集足底深度数据逆向建模定制鞋垫模型,并可根据足型情况个性化修改鞋垫模型,缓解人受力不平衡
为进一步加强信用体系建设,完善第三方社会信用平台监管机制,增强民众监管力度和参与度,设计了一款信用监管App,方便用户进行失信取证和信用度查询等操作,该文内容涉及设计原
先天性梅毒又称胎传梅毒,是梅毒螺旋体由母体经过胎盘进入胎儿血液循环所致的感染性疾病。孕母患早期梅毒未经治疗,其胎儿大多会受到感染。近几年,我国先天性梅毒发病率有持
随着科学技术水平的不断发展,人们的生活越来越便利,同时也存在着一些信息泄露等问题,人们对密码的要求逐渐提高.密码是保证人们生活隐私和网络安全的重要技术,借助密码能够
随着图书漂流活动思潮传入国内,不同客户端平台上的图书漂流系统层出不穷,缺少一套统一的适用于多终端的解决方案。在移动互联网应用中,WEB API开发是前后端分离WEB应用开发
文字游戏是一种可以低成本开发的游戏种类,适合初步想要接触游戏开的人们来制作,学习。但是文字游戏存在很多弊端,对于大众来说缺少游戏性,因为主体是视觉小说,很容易忽略了