论文部分内容阅读
现代医学研究表明,人类的各种疾病都有与其相对应的致病基因,由于致病基因与内外环境的相互作用诱发了许多常见的复杂疾病。2005年《Science》上发表的关于年龄相关性黄斑变性的GWAS(Genome-Wide Association Studies,GWAS)文章开启了复杂疾病GWAS的研究。虽然单个位点SNP的致病性研究已经取得众多的研究成果,但是这些研究成果并不能完全解释复杂疾病的生物遗传机理。大多数单位点SNP致病的分析方法仅研究位点与疾病间的边际效应,因此与疾病关联性较强的SNP位点被认定为致病位点,然而单位点边际效应较弱,与其他SNP组合起来具有较强致病作用的SNP却易被忽略。越来越多的科学研究表明,SNP间的交互作用在复杂疾病的遗传变异中扮演着极其重要的角色。目前也有一些方法考虑了 SNP间的交互作用,但是对于复杂疾病的研究,由于主效应和交互作用等各种疾病模型的叠加,使得精确定位致病SNP成为一个亟待解决的难题。针对上述问题,本文提出了基于特征选择算法识别致病SNP位点,即通过集成多种特征选择方法和优化算法,达到更为精确地识别致病SNP位点的目的。这种方法不仅兼顾了单位点的主效应和多位点间的交互效应,而且能根据需求调整组合方法,具有很好的灵活性和可拓展性。通过对全基因组单核苷酸多态性致病位点的分析,本文获得如下结论:1、在生物学领域中,随着生物技术的发展,生物数据的增大,特征选择方法已经成为构建模型,分析数据的先决条件。为进一步解决致病SNP位点的识别问题,本文采用了卡方独立性检验、ReliefF、随机森林以及基于粒子群优化的GA-SVM特征选择方法。应用上述四种方法在模拟数据集上进行实验分析,由实验结果可以看出,卡方独立性检验的识别效果较差,虽然该方法对单位点的致病SNP位点的识别有一定作用,但是不能准确找出全部的致病SNP位点。ReliefF依据特征权重向量对SNP位点的致病性进行排名,该方法对交互作用的位点有一定的识别能力,但容易受到噪声数据影响,且在模拟数据上的实验结果与卡方独立性检验实验结果相似,其效果并不显著。随机森林算法通过计算每个SNP位点的基尼值对每个位点的致病性进行排名,该方法能够在高维数据下识别出边缘性较强的位点,且能有效的识别交互作用。测试结果反映出此方法能有效地识别致病SNP。基于粒子群优化的GA-SVM是集成机器学习与优化算法的封装式的特征选择方法,该方法能有效识别具有交互作用的数据集中的致病SNP位点,且能给出特定大小的致病SNP子集,但该方法计算复杂度较高,耗时较长。2、通过对四种特征选择方法在模拟数据集上的实验结果进行对比与分析,本文提出了一种结合随机森林和GA-SVM-PSO的新方法。该方法采用随机森林算法,计算每个SNP位点的基尼重要性值,由排名靠前的SNP位点组成新的SNP子集。在新组成的SNP子集基灿上,运用GA-SVM-PSO算法筛选出致病SNP子集。经模拟数据集与真实数据集的实验验证,本文所提出的方法在识别致病SNP位点上比随机森林、ReliefF、GA-SVM-PSO等方法更为优越,是一种识别常见复杂疾病致病SNP位点的实用方法。