基于Hadoop的Web日志存储和分析系统的研究与实现

来源 :北京邮电大学 | 被引量 : 6次 | 上传用户:ericchenfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,Web上的信息服务越来越丰富,挖掘Web日志中用户访问行为潜在的信息,对于Web站点优化、业务扩展、用户个性化服务等都有着重大意义。但是随着Web日志数据量的与日俱增,现有的Web挖掘算法处理海量小日志文件时,在小文件的存储和关联规则挖掘方面都存在诸多问题,主要体现在合并小文件时没有考虑异步方案而导致合并阻塞,同时在进行关联规则挖掘时因为数据的分散影响了挖掘的效率。本文基于Hadoop的分布式文件存储系统HDFS(Hadoop Distributed File System),研究和设计了针对Web日志数据的小文件异步存储方案,提出了一种优化的聚类算法来对大量的日志数据进行分类,同时实现了一套高效的Web日志关联规则挖掘系统。主要研究成果如下:首先,针对HDFS存储小文件消耗大量内存和读取效率慢的缺点,提出一种基于监听任务队列的小文件异步合并方案和预取策略,使文件上传和下载能够高效的执行。实验表明,相对现有的解决方案节约了 60%以上的小文件上传和下载的时间以及减少了 40%以上的主节点内存消耗。其次,提出基于全局误差函数的K-means聚类划分算法,同时基于聚类用FP-Growth算法对日志数据进行关联规则挖掘,避免构建FP树内存消耗过大的缺点。实验表明,在日志关联规则挖掘上节约了 50%以上的执行时间,同时挖掘的频繁项和关联规则数量也提升了 60%以上。最后,为了准确挖掘页面之间的关联关系以及动态配置挖掘参数,实现了 Web日志关联规则挖掘系统。通过对数据进行了对称加密和数字验证,确保了日志的安全性,同时结合改进的HDFS存储方案和优化的聚类算法对日志数据进行关联规则的挖掘,可以实时监控任务执行情况和获取执行结果。
其他文献
介绍了光伏电池的基本特性和最大功率点的原理及其运用的一些常规方法。针对模糊控制具有适应性强、鲁棒性好、不依赖被控对象精确模型的特点。提出了规则生成、模糊决策与推
八大山人的绘画艺术把泼墨大写意花鸟画画风推向了一个新的高峰,对后世产生了深远的影响。其花鸟画图式,作为一种极具隐喻特点的语言样态,打破了中国画近千年来程式化的表现
<正>教材版本:冀教版义务教育课程标准教材教学目标:1、了解雨天外公对我的呵护以及成人后的"我对外公的照顾。2、体会"倾斜的伞"所代表的祖孙间的亲情。3、学会感恩、报恩。
会议
风力发电的随机波动性和不确定性对频率稳定和电能质量的影响较大。储能技术的发展给电网稳定运行带来了新的机遇。文中首先介绍了风储联合系统的基本结构,然后提出风储联合
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
期刊
本文从恒压源和恒流源两种不同的供电方式出发 ,推导出了两套扩散硅压力传感器零点及零点温漂串、并联补偿电阻阻值的公式 ,运用这两套公式 ,只需测量流过电桥的电流、桥压以
USH2综合征型耳聋,是最常见的Usher综合征亚型,表现为先天性中至重度听力损失,迟发型渐进性视网膜色素变性(又称色素性视网膜炎),且不伴有前庭功能异常,其发病率约占Usher综
历史上的户籍管理制度是指通过各级权力机构对其所辖范围内的户口进行清查、登记、申报并按一定的原则进行立户、分类、划等和编制,作为掌握人口信息、征调税役、分配资源和