大数据随机样本划分模型及相关分析计算技术

来源 :第六届中国计算机学会大数据学术会议 | 被引量 : 0次 | 上传用户:ffcsyangchh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文设计了一种新的适用于大数据的管理和分析模型——大数据随机样本划分模型(Random Sample Partition模型,简称RSP模型),它是将大数据文件表达成一系列RSP数据块文件的集合,分布存储在集群节点上.RSP的生成操作使每个RSP数据块的数据分布与大数据的分布保持统计一致,因此,每个RSP数据块是大数据的一个随机样本数据,可以用来估计大数据的统计特征,或建立大数据的分类和回归模型.基于RSP模型,大数据的分析任务可以通过对RSP数据块的分析来完成,不需要对整个大数据进行计算,极大地减少了计算量,降低了对计算资源的要求,提高了集群系统的计算能力和扩展能力.本文首先给出RSP模型的定义、理论基础和生成方法;然后介绍基于RSP数据块的逼近式集成学习Alpha计算框架;之后讨论基于RSP模型和Alpha框架的大数据分析相关计算技术,包括:数据探索与清洗、概率密度函数估计、有监督子空间学习、半监督集成学习、聚类集成、异常点检测;最后讨论RSP模型在分而治之大数据分析和抽样方法上的创新,以及RSP模型和Alpha计算框架实现大规模数据分析的优势.
其他文献
通过对拉力型预应力锚索力学响应的理论分析,利用弹性力学半空间体的Mindlin位移解及变形协调原理,推导了拉力型预应力锚索的内、外锚固段的剪应力分布表达式;采用分离法研究了
针对非线性轮式移动机器人的避障以及多机器人间的相互避碰问题,提出了一种基于预测窗的避障避碰算法.首先为了便于预测碰撞的发生,通过反馈线性化将非线性的机器人运动学模
本文针对受到外界未知扰动和模型不确定性影响的倾转式三旋翼无人机,研究了其在尾部舵机发生堵塞故障时的容错控制问题.通过对倾转式三旋翼无人机姿态动力学特性的分析,将尾
雷诺综合征是一种血管神经功能紊乱所致的疾病,临床多采用以解痉、扩血管药物治疗,但疗效不确切.河津市人民医院近来采用星状神经节阻滞治疗5例.取得明显疗效,现报告如下.
提出应用最优拉丁超立方抽样的方法并结合响应面模型和带精英策略的非支配排序遗传算法(NSGA–Ⅱ算法)实现注射工艺多目标优化,缩短寻找最优工艺参数的时间,提高塑件生产效率
从三峡工程岩石力学试验报告中整理出闪云斜长花岗岩微新状态的单轴抗压强度数据,时间跨度自1956年4月至1999年5月。通过统计分析,提出在给定试件形态、给定测试条件情况下测
《声无哀乐论》是中国音乐发展史上的一篇重要文献,其重要性在于提出了主体性的音乐理论。本文着重从音乐的三要素引发,联系原文,结合音乐作品实例,论证了音乐活动中创作者,演奏者
所谓多媒体包括录像带、录音带、VCD碟、LD碟、计算机各类软件、幻灯片、摄影胶片、图文资料、实物,以及网络资源等等.
根据堆石坝的施工特点,分析了堆石坝有效施工工期的影响因素。基于Monte-Carlo方法建立了模拟降雨条件下堆石坝有效施工工期的统计分析模型,对堆石坝有效施工工期进行了分析