基于Hadoop的云平台在海量Web数据分析中的应用研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:huanying19870604
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的进步和Internet技术的发展,网络数据规模日渐庞大,Web已成为全球最大的数据仓库,无论是企业还是个人都面临如何有效管理海量Web数据的难题。传统数据处理方法存在成本过高、可靠性较低、编写并行处理程序困难等诸多缺点。基于开放源代码的Hadoop并行处理框架能够有效、可靠、智能的管理海量Web数据。为了提高传统单一节点在海量Web数据分析和挖掘中存在时间和空间效率,通过分析Hadoop云计算开源平台技术的国内外研究现状和发展趋势,基于Hadoop开源框架分布式文件系统(HDFS)和Map/Reduce编程模型,研究了海量Web日志性能指标和一种Web挖掘算法的Map/Reduce化过程,设计了海量Web数据分析系统架构,搭建了Hadoop开发平台,实现了一个分布式的海量Web数据分析系统的开发。该系统集成了数据和应用,并通过Hadoop的应用程序编程接口(API)连接到Eclipse中,利用Maven管理和构建Hadoop项目,实现任务之间的共享操作。通过在虚拟机搭建了4个节点的Hadoop集群环境系统测试平台,测试分析了该系统和传统系统的Shell脚本处理,统计分析了Hadoop平台Web日志数据的采集和其关键绩效指标(KPI),完成基于物品的协同过滤算法并行程序测试,测试结果表明该系统有效提高了海量Web数据分析和挖掘的时间和空间效率。
其他文献
英国、加拿大、美国和德国的医疗保险制度不尽相同,但均通过制度来保障医疗保险的循证决策,并由专业的组织机构提供循证决策支持信息。各国的实践经验表明,新技术是循证决策支持
“有声读物”起源于美国,起初是由专业人士将文学作品录制成磁带,供视力障碍人士、伤残军人以收听的方式“阅读”。上世纪80年代,有声读物逐渐走向市场,被称为“spokenwords
综述了在有阴极保护的条件时剥离涂层下缝隙内电位电流的分布和化学环境的变化、阴极保护防止缝隙腐蚀的机理、微生物腐蚀的机理以及前人提出的关于剥离涂层下微生物腐蚀与阴
90年代初Lee,Tuljapurkar与Carter提出了随机人口预测方法。本文将此方法用于中国生育率预测,并根据中国生育率变化中有目的控制的重要作用,提出了控制能力对未来生育率随机变化的影响的分析技术。
三维网络陶瓷/金属复合材料是近年发展起来的一种新型材料,由于其具有良好的综合性能,具有广泛的应用前景,因此受到国内外研究学者的高度重视。这种材料在拥有高温强度、耐磨性
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
随着"互联网+"时代的到来,大规模在线开放课程等新型的在线开放学习方式正在影响我国教育的发展。2015年4月,我国启动了高等学校在线开放课程建设,为思想政治课的教学改革提
信息时代下,高校大学生是计算机网络的主体用户。其中研究生群体的日常学术、科研、娱乐、交流等方面离不开网络的支持。因此研究生社团作为研究生主要群众性学生组织,有必要
在人类面临的诸多风险中,健康风险危害严重、涉及面广、复杂多样,是直接关系到人类基本生存利益的特殊风险。因此,医疗保障也就成为人们最为迫切的一项需求,为各国政府所高度
汉语和英语在篇章衔接方面的连词使用情况有所不同,对此进行研究有利于汉英两语的学习和互译。本论文以篇章衔接及文化语言学理论指导,将曹雪芹所著《红楼梦》与杨宪益、戴乃迭