【摘 要】
:
为探索大豆基因组测序不同程度缺失数据的有效填补措施,提升数据分析综合能力,本研究以大豆株高与叶面积两组性状的基因组基因型数据为研究对象,进行5%、10%和20%不同缺失比例的
【机 构】
:
吉林农业大学信息技术学院,吉林长春130118;吉林农业大学智慧农业研究院,吉林长春130118;东北农业大学电气与信息学院,黑龙江哈尔滨150030;吉林农业科技学院电气与信息工程学院,吉林吉林13
论文部分内容阅读
为探索大豆基因组测序不同程度缺失数据的有效填补措施,提升数据分析综合能力,本研究以大豆株高与叶面积两组性状的基因组基因型数据为研究对象,进行5%、10%和20%不同缺失比例的人为数据缺失处理,分别运用K近邻算法、SoftImpute算法和随机森林算法3种机器学习方法对缺失数据进行填补,分析填补数据的准确性和性对原始数据和填补后的数据进行全基因组关联分析,分别对比填补后的数据和原始数据的分析效果.从准确2看,随机森林算法填补的准确率最高;从运行时间上来看,SoftImpute算法的运行速度最快;运行内存方面,SoftIm算法的运行内存最小,而当数据量达到10 000x1 000时,K近邻填补算法的运行内存最小.在不考虑运行时间和运行内存的因素,且对填补的准确率要求较高的情况下,随机森林算法的填补效果要优于K近邻填补算法和SoftIm算法,若对运行时间要求较高且数据量较大时,则应选择SoftImpute算法,同种情况下若对运行内存要求较高时,可优先考虑K近邻填补算法.结果说明不同机器学习方法在不同缺失程度的填补需求下的适用性,可应用于大豆基[数据缺失处理.
其他文献
为筛选不同光合能力的大豆品种,以37个大豆品种苗期光合能力的16个参数为研究对象,通过盆栽试验设置正常光照(1 000 μmol·m-2·s-1)和遮荫光照(400 pmol·m-2·s-1)两种光
构建低碳交通体系,保持与土地利用良好协同发展关系,并形成紧凑、友好、易达的城市交通环境空间与城市肌理,促进绿色可持续交通发展是当前交通规划所面临的重要课题。本文结
用一句网络术语来说,老乐实实在在地成为了草根明星。他所创办的“老乐网络电台”播客,获得了全国博客播客排名第十三名。随后,一拨接一拨的记者纷至沓来,连篇累牍地
In a n
我县地处湘北洞庭湖平原。80年代以前,农民栽植柑桔主要是在房前屋后种植酸橙(当地叫柑子、泡柑),少则十来株,多则数十株甚至上百株。据调查,全县现有酸橙树100余万株,折算面积近700hm2。笔者自
试验以东农46和L-100杂交构建的包含127个家系F2:10、F2:11、F2:12代重组自交系群体为试验材料,结合三年五点以及4个浸种时间段,调查大豆硬实率和种子吸水量两个表型性状,采
周海峰,现任燎原水泥有限公司董事长、总经理。走近这位年仅25岁的企业领军人,给人的印象是儒雅而又沉稳,与他的实际年龄不相符,但或许正是这份沉稳和一颗追求事业永无止境的
子宫内膜异位症是常见疾病,我院自1985年以来对该病的药物治疗,除采用高效孕激素周期疗法或假孕疗法外,又试用避孕甲硅环放置阴道内6~12个月,代替口服甲地孕酮,取得了较满意
目的:探讨炎症性肌纤维母细胞瘤(IMT)在口腔颌面部的临床表现及治疗方法。方法:回顾总结2007—2011年期间诊治的8例颌面部IMT患者,分析其临床资料及治疗方法。结果:口腔颌面
大豆是一种重要的固氮农作物,在其种子萌发和初期幼苗生长过程中氨基酸代谢作用较强,表达活性较高的谷丙转氨酶(GPT).为探明大豆下胚轴谷丙转氨酶的蛋白序列和酶学性质,以指
我国众多城市在过去三十年里经历了快速发展阶段,城市发展以规模扩张为主。随着经济发展模式的转型,用地紧张的限制,以及城市旧区更新的需求,多数城市已经开始向集约增长和可