论文部分内容阅读
复杂疾病是遗传和环境因素共同作用的结果。从现有的复杂疾病高通量数据出发利用生物信息学手段系统地研究其发病机制在生命科学研究中具有十分重大的意义。许多关联分析方法都能很好地鉴别出疾病易感的单个基因。本文在以往关联分析单基因挖掘方法基础上,即在复杂疾病关联基因的遗传因素基础上,进一步通过生物信息学手段,考虑其在KEGG生物学通路背景下的环境因素,通过综合考虑多个基因的联合遗传效应以及它们所在的环境因素,最终提出一种融合SNP和KEGG的综合因素分析方法来搜索复杂疾病关联的风险通路、基因及其交互作用。该方法从一个新的视角将影响疾病的遗传因素和KEGG环境因素进行合理的量化并融合,提出一种关联风险打分测度(RS)来识别与复杂疾病密切相关的生物通路,进而研究风险通路中基因及其交互作用关系,以便从多层面研究复杂疾病致病机制。
复杂疾病通常发生在大的群体中,而且是致残和致死的主要原因。这些复杂疾病被认为是由多个易感因子(遗传因素和环境因素)及其联合效应引起的。后基因组计划最大的挑战之一就是寻找复杂疾病的靶基因及其它们之间的相互关系,并对它们进行功能鉴定,在此基础上进一步完善各种基因预防、诊断与治疗技术。复杂疾病的发病机制不能仅仅通过传统的单个基因的突变、单个基因产物或通路的行为来解释,还与遗传因素、环境因素(生物学上下文背景)以及它们之间的相互作用有关。通常情况下,在处理复杂疾病的“疾病—对照”样本数据时,基因组层面关联分析能够很好地检测出疾病相关的遗传因素。然而,与“复杂疾病—多因子影响”理念相悖的是,基因组层面关联分析虽然可以很好地挖掘出一些复杂疾病的致病基因,但是它仍然存在着一些缺陷:第一,在基因组层面关联分析过程中,过于严格的多重检验校正,往往会筛选掉很多具有生物学意义的位点;第二,当样本量过少时,有些高效应的变异位点往往不易通过此方法检测到。如何避免关联分析的两大缺陷对复杂疾病的研究具有重大意义。同时,在此基础上综合考虑环境因素对复杂疾病的影响也是很有必要的。生物学通路数据库的不断完善与发展为研究者从遗传因素及遗传物质所在的生物学代谢环境角度来研究复杂疾病提供了条件。KEGG通路作为一种描述由酶催化的代谢物之间的反应关系和互作关系的分子电路网络。它不仅提供了一个将基因组和生物学系统相联系的平台,还通过反应过程和互作关系提供了将基因组和环境相联系的平台。这样,KEGG代谢通路在某种程度上反映着遗传物质在生物体代谢环境下行使功能的方式,并体现了遗传物质行使功能的多样性。从现有的高通量数据出发综合考虑遗传因素和KEGG环境因素来研究复杂疾病是可行的。
综合考虑复杂疾病关联的遗传因素和遗传物质所处的KEGG生物学代谢环境的复杂性,本文提出了一种挖掘与复杂疾病密切相关的风险通路,进而在此基础上进一步挖掘与复杂疾病密切关联的基因及其相互作用关系。该方法从一个新的视角将影响疾病的遗传因素和生物环境因素进行合理的量化,通过融合遗传因素统计量与代谢环境复杂程度指标,识别与复杂疾病密切相关的生物通路,以便更好地揭示复杂疾病的致病机理。利用此方法处理双极性疾病BD、肠炎CD、n型糖尿病T2D、高血压HT和冠心病CAD相关的群体遗传学数据,结果发现,这五种人类复杂疾病均与花生四烯酸代谢通路、嘌呤代谢通路和MAPK代谢通路关系密切;另外,它们还有着各自特异的通路,通过对高风险通路中风险基因及其作用关系的进一步分析,筛选出复杂疾病关联的风险基因及其相互作用关系。通过文献证实,本研究进一步发现通过本文的方法挖掘得到的这五种人类复杂疾病关联的风险通路、风险基因及其交互作用关系均获得了很好的文献支持。以后,会将此方法推广到其他复杂疾病的风险致病基因集及其风险作用关系中,以便更好解释基因组范围内关联分析数据结果和有效地从多层面揭示复杂疾病致病机制。