基于HDFS数据存储方法研究及其在构建行业大数据平台上的实现

来源 :重庆大学 | 被引量 : 0次 | 上传用户:fire1977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据、人工智能、云计算等技术的快速发展,电子商务、商业智能、大数据分析等技术的市场化应用,针对于海量数据存储有了较高要求,并随着数据量激增而不断调整。在如今的信息时代,数据随处可见并且逐日递增,往往这些数据来源复杂、存放分散,各应用业务系统也彼此独立,从而形成一个个信息孤岛。为了更好的收集与存储海量数据,确保数据的安全性,同时完善对数据的管理使其在大数据时代能够更好地为企业、社会以及科学研究提供便利,就需要建立一个统一的数据中心。本文以重庆大学大数据与软件学院分布式计算实验室与重庆市中冶赛迪公司合作的大数据平台项目为课题背景,研发了一套能够在行业中广泛应用的大数据平台,并将其部署在Hadoop集群上。该平台主要使用HDFS(Hadoop Distributed File System)存储智慧城市以及智能制造领域产生的海量数据,并通过Sqoop和相关ETL工具完成海量数据的集成以及清洗工作,其次完成可视化系统的开发,最后进行海量数据测试,验证平台的稳定性。本文完成的主要研究工作及取得的最终成果包括:(1)通过对HDFS存储机制以及HDFS高可用机制的研究,对早期解决HDFS中Name Node单点故障问题的方案(元数据备份方案、Secondary Name Node方案、Backup Node方案以及Avatar Node方案)进行描述并比对,对现阶段高可用解决方案进行了详细分析并且提出了优化方案,提出了基于Hadoop2.X改进的高可用方案,并对优化后的方案进行相关主备节点切换测试进行验证。最后为了检验该平台能够在存储海量数据的情况下稳定运行,进行了海量数据测试实验,验证达到预期效果。(2)采用大数据生态组件Sqoop,完成数据迁移,主要完成了数据到HDFS、Hive、HBase的迁移工作,实现各种数据源的整合,便于全局数据分析。(3)采用Kettle对企业中存在的海量数据进行定制化清洗,去除与企业决策无关的数据、脏数据以及噪声数据,具体功能包括残缺数据处理、重复数据处理、数据合并以及数据转换。(4)完成数据的集成以及清洗后,基于HDFS分布式文件系统完成可视化平台的设计与实现。本文的可视化系统主要使用Spring Boot开发框架搭建,主要功能包括单点登录、数据库连接、数据集生成等功能。
其他文献
副溶血弧菌作为一种典型的食源性致病菌,广泛存在于沿海地区的海产品中,因食用被副溶血弧菌侵染的食物而导致的食物中毒事件在我国各省每年均有发生,因此建立起针对副溶血弧菌的高效、快速且特异性的检测是目前研究的重中之重。基于目前的紧迫情况,我们开发了针对检测副溶血弧菌食物侵染的特异性方法,本方法采取了创新性的手段和材料,与经典的和最新的方法比较具有较高的特异性以及较短的时长,十分适用于现场的快速检测。主要
目的:观察人腺病毒(Human adenovirus,HAd V)感染后呼吸道上皮细胞中的λ1干扰素(Interferon-λ1,IFN-λ1)m RNA的表达情况,并分析其与HAd V载量及病情严重程度的关系,探讨IFN-λ1在儿童腺病毒肺炎发病中的作用。方法:1.选取2019年1月至2019年12月在湖南省人民医院儿童医学中心住院、确诊HAd V感染、病程在14天内、年龄小于14岁、无合并基础
随着移动机器人与人工智能的不断发展,以移动机器人为主体的“货到人”搬运方式正逐步取代传统的“人到货”搬运方式。然而,目前“货到人”搬运方式中的移动机器人多采用以二维码、磁导线等为主的路标导航方式,路径灵活性差,同时路标系统的构建费时费力,难以适应“前置仓”模式下灵活多变的业务需求。此外,目前对仓储机器人的运动控制多采用传统的PID控制方式,无法应对负载变化和执行机构饱和、磨损等情况对机器人的运动控
甜醅是一种以燕麦等作物为原料发酵而成的小吃,以其较高的营养价值被人们所喜爱。但市场上仅以糯米发酵产品居多,品种较为局限,系统性研究不够。此外对于多种谷物发酵甜醅品质综合分析及炒制处理对甜醅品质的影响尚不明确,仍需进一步探究。本研究首先对12种原料发酵甜醅的品质进行了分析,探究了发酵甜醅氨基酸之间的差异,利用电子鼻和电子舌分析了其气味和滋味。选择紫米,红米,糯米,黄小米为原料,应用GC-MS分析了这
肥胖症是多种因素引起的慢性代谢性疾病,严重威胁人类健康,近年来的研究表明肥胖与脂代谢和肠道菌群密切相关。由于天然产物对疾病的预防或治疗效果显著,被广泛应用于肥胖预防的研究。绿原酸(CGA)是苹果中的一种特征多酚,具有多种生物活性,可调节糖脂质代谢,且大部分CGA在结肠中被肠道菌群代谢吸收,因此,通过增加低甲酯果胶(LMP)与CGA相互作用,以延长CGA在结肠中的停留时间和发酵时间,这将有助于提高C
菊粉是一种水溶性多糖,广泛存在于植物中,其中菊苣和菊芋根是菊粉最丰富的来源。因其特殊的β-(2,1)-糖苷键结构,菊粉只能在结肠中被微生物分解,使得菊粉具有调节脂质代谢、降低血糖、促进维生素及矿物质的吸收、改善人体肠道功能、预防癌症、增强机体免疫力等多种功效。菊粉由于聚合度(Degree of polymerization,DP)的不同,相应的理化性质和生理功效也发生改变。本研究利用不同聚合度的菊
本研究以植物乳杆菌ATCC 14917为研究对象,利用全基因组重测序技术,研究其在β-内酰胺类抗生素进化过程中的耐药性,同时分析其在获得耐药性后表型和益生特性的变化,以期获得一株适应性成本小、高耐药的益生菌菌株,为功能性食品研发提供重要的菌株资源。第一部分:植物乳杆菌对β-内酰胺类抗生素的耐药性研究。采用宏量肉汤稀释法研究植物乳杆菌进化过程中的耐药性(最小抑制浓度,MIC),结果表明,植物乳杆菌原
感应耦合式电能传输(Inductively Coupled Power Transfer,ICPT)具有设计灵活简单、电能传输稳定可靠、通道抗干扰能力强的特点,在植入式医疗设备、无线充电汽车、航空航天、滑轨式设备等领域具有很大的应用前景。在实现电能传输时,往往还需获取设备运行状态,由上位机发送指令对设备进行控制,同时设备采集到的数据同样要发送至上位机,这就要求ICPT系统具备数据双向传输的能力。论
动态随机存储器(Dynamic Random Access Memory,DRAM)的低存储密度已经无法满足大数据时代下应用程序对内存的需求。新型非易失性存储器(Non-volatile Memory,NVM)具有低能耗、高存储密度和支持字节寻址等优点有望能缓解内存发展速度的问题。在混合内存体系结构中,利用DRAM和NVM优势,将读频繁些写冷门的数据写入到NVM,同时将写频繁的数据加载到DRAM内
随着汽车的普及,不可再生能源日益枯竭,大气污染问题愈演愈烈,引发各界人士的广泛关注。清洁能源具有很大的发展潜力,研究发现燃料电池具有此特性,因此逐渐成为当前主流车载能源之一。然而,燃料电池动态响应速度较慢,能量无法进行双向流动,导致车辆性能受到严重影响。考虑到超级电容具有功率密度高、能量可以双向流动的特点,可将其与燃料电池结合使用,使两种能源协调工作从而提升汽车动力系统的性能。该混合动力系统能够充