基于Hadoop的Web日志存储及预处理优化研究

来源 :河北工程大学 | 被引量 : 6次 | 上传用户:xinzhichaoniao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网、移动互联网等技术的发展,使得服务器上的Web日志急剧膨胀。Web日志记录了上网用户访问Web页面的浏览行为,对网站建设和提供精准服务具有重要的指导意义。但是,原始Web日志文件中数据的通常是不完整、冗余甚至错误的,直接使用这些数据进行日志分析非常困难,而且有可能得到错误的结果,因此,对Web日志数据进行预处理是很有必要的。同时,考虑到传统关系数据库存储的约束和单节点数据处理方式的局限性,本文使用Hadoop的分布式处理平台对Web日志数据进行存储和预处理操作,主要内容包括:(1)Web日志数据存储面对海量Web日志的急剧增长,传统存储技术面临建设成本高、运维复杂、扩展性有限等问题,而现在流行的云数据库具有动态可扩展、高伸缩性、高吞吐性能、低成本等优势,因此,本课题考虑将Web日志存储到Hadoop数据库HBase中,充分利用集群的分布式处理优势。(2)HBase负载均衡优化数据在HBase中的存储方式在很大程度上左右着整个集群的性能,直接影响着后续读取操作的效率。当MapReduce读取HBase中Web日志数据时可能会造成访问“热点”问题,本文针对这种情况提出一种改进的负载均衡算法即HBase基于子表限制的负载均衡算法,在子表分配过程中除了考虑HRegionServer的负载情况外,还考虑到切割子表region的分配情况,从而实现最大程度上的集群负载均衡。(3)用MapReduce对Web日志进行预处理Web日志预处理操作关系到Web挖掘的质量,而单一节点的计算能力在处理大规模增长的Web日志上逐渐显露出弊端,MapReduce支持大规模集群操作,本文在分析Web日志预处理过程后,从HBase中读取数据,使用MapReduce计算模型处理Web日志的预处理操作。通过对比实验,验证了优化后的HBase负载均衡算法在适当集群环境中可以有效解决负载访问失衡问题,以及验证了MapReduce在处理Web日志预处理过程的高效性。最后,本文对预处理算法进行优化,并验证优化后算法的高效性。
其他文献
目前软件产业已成为推动一个国家国民经济增长的中坚力量,也是维护国家独立自主的强有力保障。如何提高软件的生产效率,延长软件的生命周期,增强软件可维护性和可扩展性,已经
近年来,电力电子嵌入式系统发展迅速,产生了很多芯片开发商,日本NEC公司的V850系列处理器在电力电子、汽车电子、工业控制等领域都有着广泛的应用,而随着嵌入式芯片的不断成
随着多媒体技术和网络通信技术的不断发展,多媒体通信业务逐渐在应用中占据主导地位。SIP凭借其简单、灵活、开放、扩展性好等特点,已成为业界研究的热点。本文分析了视频会
21世纪是信息和科技的世纪。信息技术的进步在促进时代发展的同时,也给残疾人带来了前所未有的机遇和极大的挑战。数字图书馆是残疾人获取信息的一种重要的途径和手段。结构
无线传感器网络是由大量低成本的传感器节点组成的无线自组织网络,能够随时随地搜集物理数据,实现人与物理世界的自然交流。无线传感器网络采用在一定区域内布置大量具有感知和
进入新世纪,在宽带无线接入领域,无线网络技术的发展日新月异,一种新的无线网络技术——无线Mesh网(WMN,Wireless Mesh Networks)逐渐发展起来,显示出其巨大的发展潜力,引起
移动机器人的研究开始上个世纪60年代末期,是人工智能、机器人学、仿生学、控制理论和电子技术等多种技术学科交叉的产物。随着科技的发展和社会的进步,机器人已经走出实验室
位置感知的服务(LBS:Location Based Service)是一种通过定位用户的位置信息,从而为用户提供空间位置相关的相应服务的技术。目前LBS的应用以GPS导航为主,个人移动设备上的LB
农业信息化、数字化是21世纪世界农业发展的必然趋势,是农业现代化的重要内容之一。加强农业信息系统化建设是推进农业信息化的基础性工作。农业专家系统经过几十年的发展,其
现在第四代移动通信已趋于成熟,人们更加关注移动宽带网络传输的服务质量(QoS),尤其在多输入多输出(Multiple-Input-Multiple-Output,MIMO)系统下的视频多播方面。随着第五代