【摘 要】
:
就大数据生成过程的多维性、稀疏性和动态性等特征而言,大数据集并不等于统计总体,即便对于静态大数据集,随机抽样同样有着不可或缺的参数估计和总体推断的方法论价值。在大
【基金项目】
:
国家自然科学基金项目《在家系序列数据中同质性检验的连锁研究》(31470070);山西省自然科学基金项目《基因型模式在基因组选择中的整合研究》(2014011030-4);山西省回国留学人员科研资助项目《基于统计学习理论的基因组选择研究》(2013-72)
论文部分内容阅读
就大数据生成过程的多维性、稀疏性和动态性等特征而言,大数据集并不等于统计总体,即便对于静态大数据集,随机抽样同样有着不可或缺的参数估计和总体推断的方法论价值。在大型数据分析中,常常遇到需要降低维度和减少计算量但又不知如何抽样处理的问题。因此,提出均匀抽样在大数据挖掘中应用的基本策略,并使用模拟数据和医学胎心宫缩监护数据集进行数值分析。结果表明:均匀抽样在降低决策树、adaboost、bagging和随机森林的误差率上优于现有文献的常用方法,这一策略能为面向大数据的数据挖掘方法提供参考,也为针对大数据分析的抽样有效性提供佐证。
其他文献
随着新世纪的到来,计算机电子技术与工程管理在我国的社会中飞速发展。而两者并不是在发展过程中没有交集的,计算机电子信息技术在工程管理中的应用就是一个最好的例子。那么
教育改革席卷而至,高校招生推行了“3+x”方案,不仅要求学生要具备较扎实的理论知识,而且需要学生具有更主动的学习精神和更强的自学能力,具有创新意识和能力。要改变传统的
目的比较不同提取方法制备的吉林细辛中的挥发性化学成分。方法采用传统的水蒸气蒸馏提取挥发油,和顶空进样直接采集挥发性成分2种方法,对吉林细辛中的挥发性成分进行GC—MS分
提高建筑通风与空调系统的能源利用率对改善建筑物室内温度和空气环境,有效节约能源具有十分重要的意义。本文根据国家和地方的相关标准,从检测准备工作和检测项目等方面探讨
<正>河东区人大常委会办公室按照监督法和区人大常委会议事规则的有关规定,不断规范、完善会议服务工作机制,充分发挥综合协调、参谋助手和行政服务作用,紧紧围绕人大常委会
PISA是当前最主要的国际教育评价项目之一,它具有如下特点:评价的目的是为促进终身学习能力的发展,评价内容注重与社会生活需要密切关联,评价方法设计严谨,评价结果具有政策
目的:探讨纤维支气管镜在双腔支气管插管定位中的应用效果。方法:收治择期胸外科手术患者49例,采用听诊法定位进行定位,然后再经纤维支气管镜确认和调整。结果:本组49例患者中,左侧
目的:探讨超声引导经皮射频消融治疗肝癌的临床疗效。方法对我院接受超声引导经皮射频消融治疗的56例原发性肝癌患者的临床资料进行分析。结果在术后1周,超声检查显示肝癌病灶
辣椒红色素是以辣椒为原料,采用科学方法提取、分离、精制而成的天然色素,属类胡萝卜类色素,具有保健作用,广泛应用于食品、水产品、保健品、化妆品、医药和高级饲料等领域。
陕西省是我国猕猴桃主产区之一,近年来开始发展有机猕猴桃生产。以陕西猕猴桃的发育期为主线,根据猕猴桃各发育阶段的病虫害发生特点,结合国内外有机生产中病虫害防治技术的