论文部分内容阅读
大数据分析技术现在已广泛应用于整个商业生态之中,但是数据从业者在进行大数据分析之前,往往花费大量时间用于部署各类软硬件和构建工作环境。本文希望帮助数据科学家快速搭建相关工作环境,帮助数据科学家管理数据集和应用集,使他们能够在平台上分享这些工作环境、数据集或应用集。为了实现上述目标,本文设计并实现了大数据分析系统部署管理平台,该平台包含以下功能:1)基于虚拟化技术,完成了工作环境的创建、部署,用于用户快速地创建一套自身的工作环境,此过程为全自动化,用户仅需要选取所需要的工作环境并点击按钮,系统就为其提供已配置完毕的硬件环境。2)基于索引及搜索技术,完成了工作环境、数据集和应用程序的统一搜索,用户能够在搜索的页面中搜索所有自身所需要的资源。当用户基于某个关键字进行搜索时,就能够得到一张由各类资源组成的列表,再根据自身的需要搭建所需要的环境,例如“一个8GB内存4核CPU组成的工作机”,“安装Python”,“导入2015年糖果市场的销售数据”3)基于描述文件即配置的方法,完成了对用户创建自定义类型的应用、环境和数据集的支持。当用户在自身的工作环境中下载或者创建新的对象时,能够通过发布将新对象共享到公共的资源库,使新的对象能够被其他用户搜索和下载。与其它解决方案相比,本文所设计与实现的平台具有以下优势。1)应用虚拟化技术使系统变得更高效、易扩展:它能够将硬件资源进行自由的平衡,动态调配硬件资源至高负载的任务;当用户希望扩展自身的硬件时,仅需购买新的硬件系统并集成至原服务器集群中,新硬件的增加不会造成对已有数据的影响。2)应用索引技术提高了系统的易用性:相关对象能够被快速地搜索到。现有的解决方案中用户必须先知道自身需要什么,再向IT部门提出需求以帮助他们得到他们所要的资源,索引技术能够帮助他们通过关键字搜索到他们所需要的资源。3)支持用户自定义:能够帮助用户创建属于自身工作区的产出物。在本平台的设计与实现过程中主要就索引技术的应用及描述性文件的制作方法进行了研究。在索引技术应用过程中,本文首先对市场中几种开源和付费产品进行了原理学习、代码分析和功能对比,选取了比较适合本平台应用场景的产品,再对所选取的产品进行配置和二次开发使其满足了本平台的需要。在描述性文件的制作研究过程中,本文分析了用户对于资源的需求,将所有用户需要的资源都抽象为对象,同时使用描述文件表示这些对象。所有描述信息能够被搜索的,结合索引技术能够使所有硬件资源都变成为可搜索、可操作的对象。目前本平台的第一个版本已开发完毕,通过了测试,并且已交付给销售部门进行推销。。根据销售部门的反馈,用户的反响良好,总体而言,本平台帮助用户减少了约80%的部署时间和60%的部署成本,同时使用户从部署的问题中脱身,使他们能够更多地关注在他们的分析工作上。同时销售部门收集到很多来自用户提出的新的需求,今后将基于用户的新的需求,对系统进行进一步地改进。