Rstudio和随机丛林在高维全基因组学数据分析中的应用

来源 :中国卫生统计 | 被引量 : 0次 | 上传用户:qiufeng115
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的结合Rstudio和Random Jungle两款软件的优势,通过远程登录简便、快捷地实现全基因组学数据的分析。方法在服务器端搭建Rstudio Server,封装随机丛林R程序并对英国威康信托病例对照协会(WTCCC)高血压真实数据进行分析,通过Rstudio Sweave动态生成分析结果。结果在客户端即可通过网络浏览器登陆服务器端搭建好的Rstudio Server;数据量较大时,封装后的随机丛林程序在Rstudio Server中运算速度方面相对于R random Forest包优势明显。2001名高血压病例及3004名对照的22条染色体共有490032个SNP位点,根据真实标签通过10次随机丛林过程筛选出稳定排序在前20位的SNPs位点,其Cochron-Armitage检验的P值也有10个排进前11位。结论全基因组学数据的处理会消耗很多的时间和内存,普通计算机根本无法承受,Random Jungle软件的命令行运行方式又不易于数据处理、算法组合或嵌套及结果的再现、可视化,在服务器端搭建Rstudio Server并结合Random Jungle的分析策略可有效地应用于全基因组学数据分析,简化分析过程、提高分析速度和效率、方便实现分析结果的动态输出及再现。
其他文献
<正>智能时代的来临,在批发领域,究竟怎样才能搭上"人与智能时代"的这趟车?当代社会,市场竞争日益激烈,对于中小批发商来说,效率往往决定着企业的存亡,影响着企业的形象。左
<正>展筋活血散为平乐郭氏正骨祖传验方,对治疗伤筋尤有独到之处,作者的导师对此方情有独钟,应用颇有心得,特举导师经治验案数例,以嚮。1肩关节周围炎(肩凝症)韩某,女,62岁。
<正>青蒿素(artemisinin,ART)是我国科学家在1972年首次从菊科植物黄花蒿中提取的含有过氧基团的倍半萜内酯类化合物,其衍生物主要有青蒿琥酯(artesunate)、蒿甲醚(artemethe
<正>德国哲学家雅斯贝尔斯在《历史的起源与目标》(1949)中,提出了"轴心时代"概念,他认为:公元前800至公元前200年之间,是人类文明的"轴心时代",在这个轴心时代出现了伟大的
以D-230(聚醚胺)为固化剂主体,并引入与D-230协同效应良好的N-AEP(N-壬基酚),再以DMP-30[2,4,6-三(二甲胺基甲基)苯酚]为固化反应的促进剂,辅以苯甲醇为韧性调节剂,制备无溶
<正>问:在我看来,您的《五百年来谁著史》(九州出版社出版)和《天下》(中国海关出版社出版)都呈现出一种"光明史观",它区别于长期流行的中国"阴暗史观"(关于这一点,我们在后