论文部分内容阅读
背景:长寿特别是与脂代谢平衡调节的双关联基因对维持人体健康状态尤其是促进老年人健康延缓衰老具有重要作用,但是长寿和脂代谢双关联之间的多组学联合的系统研究尚未见有。因此,开展长寿相关的表型组、基因组、转录组和蛋白质组的系统研究将有助于多维度探索健康长寿的影响因素及其机制,也可为老年疾病的防治进而实现健康老龄提供新的依据。目的:1、在长寿人群中识别和验证新的长寿特别是与脂代谢平衡调节的双关联基因,并初步探究其遗传机制。2、开展长寿相关的表型组、基因组、转录组和蛋白质组的系统研究、联合分析识别和验证多组学中共有的影响健康长寿的关键基因。3、构建DNA甲基化和蛋白质生物学年龄时钟的预测模型。方法:本项研究纳入中国健康长寿人群31920例,包括广西长寿队列人群2432例,中国多地区健康长寿队列人群29488例。1、表型组学队列研究,采用登记和入户问卷调查方法。2、基因组、转录组的样本经Illumina HiSeq 2500测序,case-control 对 WES 和 GWAS 数据进行识别和验证,对 mRNA/lncRNA 和 miRNA 差异表达进行分析,ENCODE,ChIP-seq和UCSC联合预测变异功能。和蛋白质组学PH nano-HPLC-MS/MS分析表达差异蛋白。3、从年龄时钟研究,513个CpG位点筛出5个DNA甲基化位点靶向测序,引入端粒长度和代谢表型等进行年龄校正,并构建个体生物学年龄预测的模型。另从8种蛋白质表达趋势的1513个蛋白质中筛选出6个蛋白质构建年龄预测模型。结果与结论:1、健康长寿与脂代谢平衡关联基因研究:①我们发现并验证了ABO基因4个新的变异同时与长寿表型和代谢表型显著相关,如下;rs8176719 C,rs687621 G,rs643434 A,rs505922 C(prange=4.017E-03-6.778E-03;ORrange=1.073-1.083),和单倍型 CGAC(LD;r2=0.944,p=4.926E-17;OR=1.315)与长寿显著相关,基因型和代谢表型分析结果表明,rs687621 GG,rs643434 AX和rs505922 CX与HDL-c,LDL-c,TC,TG(prange=2.200E-05-0.036,ORrange=1.546-1.709)和 BMI正常水平(prange=2.690E-04-0.026,ORrange=1.530-1.997)显著正相关。生物学机制分析表明,ABO变异通过O-linked的糖基化反应改变vWF/ADAMTS13和sE-selectin/ICAM1两个通路共调节脂代谢水平。②我们在中国长寿队列中识别并验证了 MTHFD1基因的1个新变异同时与长寿表型和代谢表型显著相关,如下;rs1950902(pgenotype=0.004,p allele=0.004,OR=1.085,95%IC=1.026-1.146)与长寿呈显著正相关。代谢表型分析结果显示,性别(p=3.250E-62,OR=3.025),BMI(p threshold=2.810E-10,plow=2.760E-36,OR threshold=0.342,OR low=4.116)和 TG(p threshold=2.210E-09,p high=1.300E-02,ORthreshold=0.265,ORhigh=0.215)在长寿和对照组中有显著性差异。三个因素(性别、基因型、BMI)(p=1.243E-04)的累加效应也与长寿显著相关。在男性阈值BMI的个体中,不仅rs1950902 AG和GG基因型与长寿显著相关(p=0.011),携带rs1950902 G等位基因的个体与长寿也显著相关(p=0.007,OR=2.462,95%CI=1.260-4.809)。2、健康长寿多组学研究:①长寿表型组学队列研究,来自4386例(≥90岁)受试者与健康长寿和代谢有显著关联的表型有BMI、血压和血脂(p<0.05)。②全外显子组学研究,在5790个indels中发现与长寿关联的变异342个,其中同时涉及长寿和脂代谢的双关联基因15个,涉及变异位点26个且已经识别并验证。③全转录组学研究,长寿和对照之间比较,共识别了 320个表达差异基因,586个差异的lncRNA和175个差异的miRNA,这些基因大多涉及机体的氧化传递过程。对差异表达的基因进行circRNA-miRNA-mRNA和lncRNA-miRNA-mRNA联合分析,年龄相关的表达差异基因显著性富集在代谢和免疫的相关通路,且形成多个基因的调控网络。④全蛋白质组学分析,不同年龄段共识别了 2682个蛋白,经GO、KEGG和COG/KOG三个数据库注释,共预测出2638例蛋白功能,大多涉及免疫、内吞、分泌和神经系统,参与最多的是能量代谢通路。对比青少年、中老年和长寿三组共获得233个差异表达蛋白。经比较,影响表达蛋白差异最高的信号通路是神经退行性变通路,其次是内分泌代谢通路。⑤多组学联合分析,将本组已识别的16个基因所涉及的134条信号通路上的所有基因在转录表达水平筛选,最终获得53个差异表达基因。从全外显子组和转录组共有的320个基因中筛选出19个共有差异表达基因。从全外显子组和差异表达的蛋白质组共有的233个基因中筛选出6个与健康长寿关联的共有差异表达基因。3、DNA甲基化和蛋白时钟研究:结合5个生物学年龄(长寿)关联DNA甲基化位点、性别、民族首次成功构建生物学年龄预测模型y=-53.121*EDARADD-137.564*IPO8+141.040*NHLRC1-67.893*P2RX6+149.547*SCGN+4.592*sex+0.578*nation+64.185(R2=0.86,RMSE=7.34 years)。端粒长度验证模型 Kendall 秩的协同系数是 0.731,p-value=5.783E-137。另外,从 1513 个 0-100 岁不同年龄段表达差异的蛋白质中成功筛选出6个蛋白质构建成功了年龄预测模型y=-1.440 E-05*CFD+6.097 E-05*EFEMP1+1.036 E-05*CST3-4.236 E-09*IGHA2+6.690 E-09*IGHA1+2.375 E-05*ALB-22.322(R2=0.998,RMSE=1.146 years)。