基于大数据处理技术Hadoop的论坛日志分析

来源 :江西农业大学 | 被引量 : 8次 | 上传用户:liongliong573
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着21世纪的到来,互联网技术急速发展,信息的产生速度越来越快,数据量也急剧上升,用“信息爆炸”、“信息井喷”形容也不足为过,这使得我们步入了大数据的时代。面对T B甚至PB级的数据量,企业不再局限于海量数据的获取,而是着重如何挖掘数据,如何在海量的数据中提取出对企业有价值的信息,但是,企业当前的数据处理技术已经满足不了大量的数据处理了。开源组织机构Apache基金会下大数据处理平台Hadoop的诞生,突破了传统数据处理方式的瓶颈,使得海量数据的收集、存储、计算变得更加容易、更加高效。Hadoop系统是一个分布式的数据存储与处理的平台,可以实施在廉价的计算机集群上,提供了一个海量数据分布式存储和计算的架构,文件系统HDFS和计算框架MapReduce,使用户能充分利用集群的大容量空间存储海量数据和集群总分总的高速计算能力开发分布式的应用程序,实现海量数据的毫秒级高速处理。由于该平台采用面向对象的编程语言Java编写的,因此它具有很好的可移植性和可扩展性。发展至今,已扩展出了一些优秀的框架,企业用的比较多的框架如Flume、ZooKeeper、HBase、Pig、Hive、Sqoop等,实现了一些业务逻辑的封装,简化了Hadoop的使用。本文就是基于Linux系统上的Hadoop平台开发的企业网站论坛日志分析解决方案,主要分为五个模块,分别是文件上传模块、数据清洗模块、数据统计分析模块、数据导出模块、数据展现模块。文件上传使用Flume框架,数据清洗使用MapReduce核心算法,数据的统计分析使用Hive框架,可以计算得到论坛各大关键指标,如浏览量PV、注册用户数、ip数、跳出率,以供运营者决策,数据的导出使用SQOOP框架,将得到的各个指标导出到集群外的关系型数据库MySql中,数据的展现使用ZooKeeper和HBase框架,可以实现海量数据的毫秒级查询。开发的系统最后封装成linux系统上的脚本文件,再加入linux调度器,可以实现项目的自动化运行。最后,项目经测试后就可以正式上线运行。
其他文献
以聚苯乙烯为模板,聚吡咯为炭前驱体,制备出尺寸均匀的氮掺杂空心炭球(NHCs)。通过N2吸脱附曲线、X射线光电子能谱、X射线衍射、扫描电子显微镜、透射电子显微镜和循环伏安法等
互联网技术的蓬勃发展,使得基于互联网基础上的各种应用系统发展非常迅猛。如电子邮件、BBS、腾讯QQ和博客等,极大地方便了人与人之间的信息传播和交流,人们的生活方式和价值
<正>现在许多学生都喜欢打篮球,篮球已是一项极为重要的体育运动项目之一,相比于其他的运动项目,篮球是一项运动性很强的项目。学生在打篮球的过程中,追求的是速度和高度的结
随着2006年教育部《关于全面提高高等职业教育教学质量的若干意见》(教高[2006]16号)"高等职业院校要把工学结合作为人才培养模式改革的重要切入点"文件精神的实施,人才培养
为了考察牛大力乙醇提取物中总黄酮的含量及抗氧化活性。通过L16(45)正交实验,超声波辅助提取牛大力中总黄酮,得到最佳工艺,再测试乙醇提取物和四个萃取物对羟基自由基(.OH)
通过直接睡眠实验、延长戊巴比妥钠睡眠时间、提高戊巴比妥钠阈下催眠剂量实验和缩短巴比妥钠睡眠潜伏期实验,观察灵芝提取物对睡眠的作用。结果:经口给予小鼠不同剂量的灵芝
研究了以环氧-聚氨酯互穿聚合物网络(EP-PUIPN)为基料,镀银铜粉为导电填料的导电涂料。用扫描式电子显微镜(SEM)观察了不同配比EP-PUIPN的两相相容性,用差示扫描量热法(DSC)测定了IPN的玻璃化温度。讨论了EP-PUIPN的结构
2007年我国启动大规模保障性住房建设以来,各地基本实现了对住房困难的低保家庭应保尽保;但城市中低收入家庭、新就业人员和外来务工人员的住房问题逐渐凸显。“十二五”期间,
<正>过去对痞证的解释,多以《伤寒论》151条作为痞证的定义:"脉浮而紧,而复下之,紧反入里,则作痞。按之自濡,但气痞耳",七版教材《伤寒学》说:"痞证的特点是心下堵闷不舒,然
近三十年来越来越多的实证研究表明,凭借股票价格的过往表现在一定程度上能够预测未来的股价的运行趋势,即股价运行会表现出动量效应和反转效应。动量效应,也被称为惯性效应,