不确定大数据分析原型系统的设计与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:Jordan2391
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着信息量的日益膨胀,数据量的快速增长,对大数据分析的需求日趋急切。同时随着人们对不确定数据认识的越加深刻,基于不确定大数据的处理需求开始兴起。然而现有的基于数据仓库的联机分析处理研究或者系统都是建立在传统数据库之上的,对大数据的存储支持尚不完善。本文依托国家不确定大数据项目,实现了基于MapReduce计算框架的不确定数据的确定化处理,设计和实现了基于Hive数据仓库的联机分析处理系统。本文主要是通过研究蒙特卡罗采样算法,针对不确定图数据经过采样过程进行确定化处理。然后根据确定化的数据集在分布式数据仓库Hive上构建多维数据模型,同时设计和实现了以Hive数据仓库为底层存储的联机分析处理系统。本文的贡献可以概括为以下几个方面。第一,通过学习简单随机采样算法,结合本文用到的不确定数据集特征,深入研究了不等概率采样算法的实现方法,然后将方法的具体实现在分布式编程模型MapReduce上进行实施,验证了算法的有效性并提高了算法的效率。第二,学习和研究了联机分析处理的模型和操作,利用Hadoop平台下的分布式数据仓库Hive,根据本文的分析需求在Hive数据仓库之上构建了多维数据模型,定义了多维分析操作。研究了一种基于Hive自定义函数UDF的模拟维度分析方法,结合了本文数据集的特点满足了分析需求的同时提高了分析效率。第三,设计和实现了基于确定化数据的多维数据分析系统,系统采用三层框架结构,分别是分析引擎层、业务控制层和用户操作层。分析引擎层主要负责存储数据仓库模型和利用MapReduce执行分析任务。业务控制层主要负责控制分析流程中的任务定义、维度定义和分析执行。用户操作层使用BS结构实现了用户与系统的交互,执行分析查询操作和查看分析结果。
其他文献
时空数据库是在空间数据库和时态数据库的基础上发展而来的。由于时空数据库包含独有的数据形式,即移动对象,使得对时空数据库的研究要比对空间数据库和时态数据库的研究复杂
随着多媒体技术的发展和硬件性能的提升,数字视频的应用越来越广泛,而作为其基础技术的数字视频压缩技术的重要性也就越来越突出了。现行已经投入应用的视频压缩标准中最先进的
1994年,Adleman用操纵DNA分子的办法解决了一个经典的NP完全问题—哈密顿路径问题(一个包含7个顶点实例)。自此以后,生物计算作为生物与计算机科学的交叉学科迅速地发展起来。
嵌入式系统的出现距今已有30多年的历史了,由于网络与通信技术的发展,计算机、通信、消费电子的一体化趋势日益明显,嵌入式技术已成为一个研究热点。以八位单片机为核心的嵌入式
安全协议,又称密码协议,是指运行在计算机网络或者分布式系统环境下,依赖应用密码学技术完成身份认证、密钥分配或者电子交易等任务的协议。它的正确性是网络和分布式系统应用安
入侵检测作为一种主动的信息安全保障措施,有效地弥补了传统安全防护技术的缺陷,在网络安全技术中占着极其重要的地位。随着计算机技术和网络技术的不断发展,分布式计算环境的广
与载人飞机相比,无人机(Unmanned Aerial Vehicles, UAV)具有体积小、造价低、使用方便、对飞行环境要求低等优点,如今它已经逐渐成为了国内外媒体争相关注的焦点,无论是军用
随着互联网时代的到来,大量的信息呈现到用户面前,从大量数据中提取、检索、查询、制定商业策略的信息就显得越来越重要,传统的数据库系统已经不能满足这种需求,数据仓库技术
下一代网络是业务驱动的网络,如何开放网络能力,方便地提供各种多方多媒体等业务,已成为NGN的研究热点。同时,下一代网络也是一个融合的网络,如何更方便的融合不同协议不同网络不
全业务采集计费帐务系统的功能范围包括话单数据采集、预处理、计费和帐务四大子系统,业务范围包括固定电话、互联网、小灵通、3G/2.5G/3G移动业务和增值业务等所有业务,性能要求