论文部分内容阅读
随着基因测序技术日益成熟,生物科技人员越来越关注基因与疾病的相关性研究。全基因组关联分析方法(Genome-wide Association Study,GWAS)在基因水平上分析并发现影响表型的显著位点,在基因与疾病的关联方面取得了巨大进步。由于大部分疾病属于多基因疾病,同时相邻的遗传变异可能存在连锁不平衡关系,确定基因型与表型的因果关系存在一些困难。本文提出将GWAS与机器学习、多层网络相结合的方法增强遗传变异致病的可靠性。本文主要研究内容:首先对慢性乙肝和乳腺癌全基因组数据进行GWAS研究。针对慢性乙肝,进一步建立极端梯度提升决策树(e Xtreme Gradient Boosting,xgboost)算法分析显著的单核苷酸多态性(Single Nucleotide Polymorphism,SNP)位点;针对乳腺癌疾病,应用xgboost算法算法分析肿瘤标志物,筛选显著的分子标志物建立多层网络模型。论文的研究内容主要包含以下两个部分:(1)应用GWAS方法研究中国慢性乙肝人群的耐药性,甄选出一组P值显著的SNP位点;采用xgboost算法对显著SNP变异位点做进一步分析,选择出影响乙肝转阴的位点组合,与GWAS分析显著的SNP位点相互验证。我们发现位于KCNQ1-AS1基因上的rs12576054位点是中国人群慢性乙肝的致病新位点。(2)在乳腺癌数据建模分析方面,对基因、mi RNA和蛋白质等肿瘤标志物进行变量筛选,得到三组显著有效的分子标志物。利用最大信息系数度量基因、mi RNA和蛋白质之间的关系强度,以0.6为阈值构建包含SNP位点在内的多层网络。根据多层网络的度及聚类系数,我们发现正常组织中的网络结构比肿瘤组织的密集,说明肿瘤组织中的SNP位点通过致癌基因的表达或抑癌基因的突变缺失影响了调控蛋白质的网络通道。我们通过对比肿瘤组织与正常组织之间的连通子网络,发现肿瘤组织和正常组织网络中同时出现的rs11257188位点通过基因层PFKFB3节点作用于蛋白质层的14.3.3_zeta节点,同时阻断蛋白质层Bax节点,使上述蛋白质在多数乳腺癌肿瘤组织中显著过表达。我们发现在正常组织多层网络中基因层度较大的节点,在肿瘤组织与正常组织的表达量方面显著过表达或欠表达;对于其共同作用的蛋白质层中度较大的节点,在肿瘤组织与正常组织的表达量方面同样显著过表达或欠表达。通过此方法发现的PRC1、EBF1和TGFBR2基因均与乳腺癌有关,证实了此方法可有效筛选致病基因和增强SNP位点的可靠性。