基于随机森林的致病SNPs检测方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:zhouqjj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的发展,并伴随着国际人类基因组单体型作图计划的完成,全基因组关联研究在技术上和费用上逐渐变得可以实行,因此对复杂疾病的致病基因检测是一个重要的研究课题。同时,复杂疾病一般都是由多个基因-基因相互作用的结果,因此基因间相互作用也将成为一个重要的研究方向。随机森林是一种新型的数据挖掘方法,逐渐开始应用于各个领域。随机森林方法不仅能够预测分类结果,而且能够计算变量重要性值,本文应用随机森林方法分析全基因组SNP数据集,计算每个SNP变量重要性值,变量重要性值越高的SNP致病性越强,以此为依据探测和疾病密切相关的SNPs。对风湿性关节炎模拟数据集和老年性黄斑变性真实数据集生长出随机森林并计算每个SNP的变量重要性值,得到变量重要性值最高的SNPs,实验结果表明该方法可以作为致病SNPs检测的有效参考方法。随后,针对SNP-SNP相互作用组合数目过大问题,以及随机森林生成过程中分类树的数目、节点随机属性数目参数选择的可靠性问题,提出了一种基于随机森林的SNPs子集过滤方法,获得了数目较少的SNPs子集,并进一步的分析了单点或者SNP间相互作用关系。对老年性黄斑变性真实数据集实验结果表明,该方法可以有效的探测致病SNPs以及SNP-SNP间相互作用,对进一步的生化实验具有有效的参考价值。
其他文献
3 控制羊绒细度的研究现状3.1 本品种选育到目前为止,世界各产绒国绒山羊的饲养基本上仍以放牧为主,经营管理十分粗放,绒山羊的育种研究也远不如其它畜种那样深入细致.从遗传
为解决原炼焦煤系统存在的一段浓缩机和循环水池容积小,导致二次浮选稀释水供应不足的问题,潘一选煤厂通过相应技术改造和生产系统的循环水用量,降低了二次浮选入料浓度,在保
在网络技术、信息技术和多媒体技术的迅猛发展之下,支撑通信的硬件设施也在不断完善,通过互联网迅速、方便地与世界无界限沟通的用户比例持续增加。为广大学习者自由寻找新型
奶牛隐性流产即胚胎死亡(未形成胎儿),不仅造成产犊间隔延长,并且使养牛经济效益下降,也可继发生殖器疾病而导致不孕.我站应用益母草合剂治疗奶牛隐性流产20余例,得到显著效
不少老师在谈及自己的职业时,常常习惯地将自己戏称为“教书匠”。自然,这样说话的人大多不至于不知天高地厚地把自己抬举到“宗匠”“巨匠”们的行列中去,充其量也就是将自
能源短缺和环境问题日益严重使新能源的开发和利用成为世界关注的焦点。垃圾填埋气作为一种生物质能源,其主要成分为CH4和CO2,将CH4从填埋气中提纯并加以利用,不仅能缓解能源
为研究不同激素浓度及不同激素组合对绵羊卵母细胞体外成熟的影响,实验对比了不同浓度的促卵泡素(FSH)与促黄体素(LH)组合,以及雌二醇(E2)浓度对绵羊卵母细胞体外成熟率的影
目的 :解决医院传染病上报过程中存在的漏报、错报、不规范问题。方法 :采用浏览器/服务器(Browser/Server,B/S)模式,基于可扩展标记语言(extensible markup language,XML)设