论文部分内容阅读
生物信息学兴起和快速发展推动了生物学技术的革新并产生了大量的生物学数据。而生物信息学的发展方向是在这些海量的生物学数据中获取在生物学上有用的信息。在人类生命科学领域,研究者面临的首要任务是如何利用生物信息学技术探究人类复杂疾病的致病因素,为根治复杂疾病的方法提供理论依据。骨质疏松症是人类常见的复杂遗传疾病之一,在过去的二十年里,骨质疏松症的遗传分析已经取得了很大的进展。生物信息学的GWAS技术,使我们通过分析获得了大量的骨质疏松症关联的SNP和基因。用生物信息学工具分析骨质疏松症GWAS关联SNP基因,发现它们之间不仅存在着强烈的相互作用,且都与调控骨细胞分化和代谢的基因或通路有关。根据对当前已知的骨质疏松症GWAS关联SNP和基因的特征,我们假设与已知的骨质疏松症GWAS关联SNP特征相似的SNP是骨质疏松症风险SNP,提出了骨质疏松症风险SNP的识别方法。该识别方法的整体框架主要分为两个部分:第一,判断待识别SNP的关联基因是否是骨质疏松症关联基因。我们首先以骨质疏松症GWAS关联基因为训练集,构建这些关联基因和待识别SNP的关联基因的PPI网络,在该网络上用基于马尔可夫链的随机游走算法对待识别SNP的关联基因排名打分,分数大于闽值的基因被判断为骨质疏松症关联基因。第二,用经过悲观错误剪枝法处理的ID3决策树算法对SNP分类。如果待识别SNP的关联基因是骨质疏松症的关联基因,那么在获取该SNP的位置特征后,以已知的骨质疏松症GWAS关联SNP和其位置特征为训练集,用经过悲观错误剪枝法处理的ID3决策树算法对待识别SNP进行分类。若待识别SNP能够被准确归类,那么该SNP是骨质疏松症风险SNP。最后,我们把已知的骨质疏松症GWAS关联SNP和2型糖尿病GWAS关联SNP作为数据集,先用十折交叉验证法分别验方法的两个步骤。最后以ROC曲线为指标验证整个识别方法。实现结果表明该方法是合理准确的。本文提出的骨质疏松症风险SNP的识别方法,实现了用算法自动识别骨质疏松症风险SNP的过程。这为进一步研究风险SNP对骨质疏松症的易感性提供了更高效的途径。