论文部分内容阅读
随着互联网技术的高速发展,Web上的信息服务越来越丰富,挖掘Web日志中用户访问行为潜在的信息,对于Web站点优化、业务扩展、用户个性化服务等都有着重大意义。但是随着Web日志数据量的与日俱增,现有的Web挖掘算法处理海量小日志文件时,在小文件的存储和关联规则挖掘方面都存在诸多问题,主要体现在合并小文件时没有考虑异步方案而导致合并阻塞,同时在进行关联规则挖掘时因为数据的分散影响了挖掘的效率。本文基于Hadoop的分布式文件存储系统HDFS(Hadoop Distributed File System),研究和设计了针对Web日志数据的小文件异步存储方案,提出了一种优化的聚类算法来对大量的日志数据进行分类,同时实现了一套高效的Web日志关联规则挖掘系统。主要研究成果如下:首先,针对HDFS存储小文件消耗大量内存和读取效率慢的缺点,提出一种基于监听任务队列的小文件异步合并方案和预取策略,使文件上传和下载能够高效的执行。实验表明,相对现有的解决方案节约了 60%以上的小文件上传和下载的时间以及减少了 40%以上的主节点内存消耗。其次,提出基于全局误差函数的K-means聚类划分算法,同时基于聚类用FP-Growth算法对日志数据进行关联规则挖掘,避免构建FP树内存消耗过大的缺点。实验表明,在日志关联规则挖掘上节约了 50%以上的执行时间,同时挖掘的频繁项和关联规则数量也提升了 60%以上。最后,为了准确挖掘页面之间的关联关系以及动态配置挖掘参数,实现了 Web日志关联规则挖掘系统。通过对数据进行了对称加密和数字验证,确保了日志的安全性,同时结合改进的HDFS存储方案和优化的聚类算法对日志数据进行关联规则的挖掘,可以实时监控任务执行情况和获取执行结果。