论文部分内容阅读
全基因组关联研究(Genome-Wide Association Studies,GWAS)是在全基因组层面上,识别与人类复杂疾病相关联的遗传变异的研究方法。传统的病例-对照分析主要研究单个单核苷酸多态性(Single Nucleotide Polymorphism,SNP)与疾病的关联关系,忽略了SNP与SNP之间存在的复杂相互作用。本文以互信息理论和仿真数据为基础,逆向构建了SNPs相互作用网络。比较了病例组与对照组SNPs相互作用网络的结构参数随互信息阈值增加而变化的情况并选取合适的阈值。根据给定阈值的互信息网络,筛选对网络结构具有显著贡献的“结构性关键SNPs”。具体内容如下: 将SNP间的互信息值作为SNPs间复杂相互作用的度量,构建以SNPs为节点,SNPs间互信息为权值的无向加权网络。根据不同互信息阈值,得到对照组和病例组对应的互信息网络。在不同互信息阈值下,比较病例组与对照组网络的结构参数:平均度K、模块度Q、平均路径长度L、聚类系数C、平均点介数召以及网络中非孤立点比例R随阂值增加而变化的情况,选取能显著区别病例组和对照组网络的阈值作为最终阈值。根据给定互信息阈值的病例组与对照组网络中节点度的差异,设置差值参数r筛选出对网络结构具有显著贡献的“结构性关键SNPs”。 基于国际HapMap项目提供13号染色体上基因GPC6和基因BRCA2的信息,利用软件HAPGEN2,在预设致病SNPs的前提下产生大量病例对照仿真数据。基于仿真数据,构建病例组和对照组互信息相互作用网络,通过比较网络结构参数发现,在相当宽的互信息阈值范围内,随着阈值的不断增加,网络聚类系数C、模块度Q、平均点介数B及平均路径长度L都能将病例组和对照组网络明显区分。对给定互信息阈值的相互作用网络,计算每个节点在病例对照网络中度变化的差值。设置差值参数r对网络中SNPs进行筛选,得到了在特定阈值下,对网络结构具有显著性影响的“结构性关键SNPs”集合。对差值参数r不同取值的实验表明:本文使用的参数r的取值能够较准确地筛选出对网络结构有较大影响的关键SNPs。结构性关键SNPs集合选取的方法能够有效地筛选出预先设定的致病SNPs。