论文部分内容阅读
随着高通量测序技术的发展,并伴随着国际人类基因组单体型作图计划的完成,全基因组关联研究在技术上和费用上逐渐变得可以实行,因此对复杂疾病的致病基因检测是一个重要的研究课题。同时,复杂疾病一般都是由多个基因-基因相互作用的结果,因此基因间相互作用也将成为一个重要的研究方向。随机森林是一种新型的数据挖掘方法,逐渐开始应用于各个领域。随机森林方法不仅能够预测分类结果,而且能够计算变量重要性值,本文应用随机森林方法分析全基因组SNP数据集,计算每个SNP变量重要性值,变量重要性值越高的SNP致病性越强,以此为依据探测和疾病密切相关的SNPs。对风湿性关节炎模拟数据集和老年性黄斑变性真实数据集生长出随机森林并计算每个SNP的变量重要性值,得到变量重要性值最高的SNPs,实验结果表明该方法可以作为致病SNPs检测的有效参考方法。随后,针对SNP-SNP相互作用组合数目过大问题,以及随机森林生成过程中分类树的数目、节点随机属性数目参数选择的可靠性问题,提出了一种基于随机森林的SNPs子集过滤方法,获得了数目较少的SNPs子集,并进一步的分析了单点或者SNP间相互作用关系。对老年性黄斑变性真实数据集实验结果表明,该方法可以有效的探测致病SNPs以及SNP-SNP间相互作用,对进一步的生化实验具有有效的参考价值。