论文部分内容阅读
随着第二代高通量测序技术发展及其测序成本的下降,使得从基因组、转录组及表观遗传组更细致全貌地分析人类疾病成为可能,这也大大推动了个性化精准医疗的发展进程。目前,全基因组关联研究(Genome Wide Association Study,GWAS)以单核苷酸多态性(Single Nucleotide Ploymorphsim, SNP)为生物标记,广泛应用于寻找与复杂疾病相关的遗传变异并取得了许多重要的进展。然而,GWAS分析结果并不能充分地解释复杂遗传性疾病,即存在遗传度不足问题(Missing Heritability Problem)。基因表达作为中间媒介表现型,已经成为连接SNP与疾病研究的重要桥梁,有助于更深入的解析个体之间表现型差异及提高其遗传解释度。 异常基因表达可能是复杂疾病发展过程中的致病基因,所以本文主要研究异常基因表达的识别及与SNP的关联。首先,本文提出了基于SSMD(Sum SquaredMahalanobis Distance)异常基因表达识别分析方法,可以有效识别人群中的异常基因表达及人群之间的差异基因表达。然后,基于异常基因表达分析结果,分别分析常见SNP及个人SNP与异常基因表达的关联,结果表明常见SNP不是影响异常基因表达主要原因,而个人SNP可能是导致基因异常表达。最后,为了验证罕见SNP对异常基因表达的作用及影响,本文结合无关联样本与家族样本,提出了个性化基因表达量估计流程,并分析及验证了家族特有SNP与异常基因表达的关联。本文主要研究内容及结果如下: 1.基于SSMD的异常基因表达识别及分析 基于马氏距离(Mahalanobis Distance,MD)提出了一种异常基因表达的分析方法。具体基于注释基因集,定义了统计量马氏距离平方和(Sum SquareMahalanobis Distance,SSMD),并通过置换检验来判别给定基因集是否容易异常表达。同理,本文还定义了diffSSMD用于检验基因集在不同种群样本之间是否差异表达。然后,通过将统计分析框架应用于自Geuvadis RNA-sequencing Project的462位无关联样本,识别出39个容易异常表达基因集、16个不易异常表达基因集以及235个欧洲人与非洲人之间差异表达的基因集。最后,通过统计功效分析验证了方法的有效性,并通过引入第三方研究数据进行了验证分析,证明了本文分析结果的可复现性及生物学意义。 2.单核苷酸多态性(SNP)与异常基因表达关联分析 基于基因异常表达分析结果,分别从遗传度、双胞胎研究及单细胞水平三个角度解析了遗传与非遗传因素对异常基因表达的影响。然后,基于卡方图判别出了异常表达基因集下显著异常个体;接着,提出了基因型加权的个人eQTL作用大小的衡量指标,用于比较显著异常个体与非显著异常个体之间常见SNP对异常表达基因集的作用,结果表明常见SNP不是基因异常表达的主要原因。最后,基于现有DNA功能调控区注释,本文发现个人SNP更显著富集在异常表达基因的功能调控区(增强子与启动子区域),可能是导致异常基因表达重要原因。 3.家族特有SNP与异常基因表达关联及验证分析 基于无关联样本及家族样本的基因组信息分别了重建了个人基因组,并基于个人基因组重新进行序列比对及基因表达量估计,提高了基因表达估计的准确性。然后,分别基于单个基因、成对基因及基因集判别出显著异常基因表达个体,并筛选出了家族成员异常个体富集的基因或基因集。接着,定义了家族特有SNPs,并对其进行分类注释,有助于解释SNPs如何影响基因异常表达。最后,通过家族成员异常个体分布与家族特有SNPs基因型分布的匹配分析,进一步验证了罕见SNPs对异常基因表达的作用及影响。 基于本文提出的分析方法及流程,一方面有助于更全面的识别异常基因表达,另一方面有助于研究者发现罕见或个人SNP对异常基因表达的影响,从而促进从基因表达及遗传变异水平来更全面地解析不同个体之间的显著差异,有助于精确寻找致病基因及遗传变异,推动个性化基因诊断及分析的模式。