论文部分内容阅读
互联网时代下,人们受益于各类层出不穷的网站与应用时,也无时无刻不在为它们贡献着Web日志。这些日志中记录着人们在网页上浏览的足迹,也记录着各种含有潜在价值的相关信息。实时分析Web日志既有利于用户得到更为人性化的服务,也利于网站改善自身的运行与维护。如今,海量数据实时计算框架Storm的出现,已使得大规模的实时Web日志分析成为可能。本文基于Storm,针对Web日志分析中所面临的应用场景与技术难题,设计并实现了一套高性能、低耦合的组合系统,为Web日志的实时分析提供了一个实际的解决方案。本文的工作包括如下几个方面:1)对本文研究课题的背景和意义予以了阐述,并对系统中涉及到的相关技术进行了概述,重点介绍了本系统中用于实时计算的核心工具Storm;2)分析系统需求,提出总体架构,并为架构中涉及的各个模块构建了系统模型,使得系统具有低耦合、易拓展、高可用等特性。该系统解决了 Web日志的实时收集、异步读取、实时计算、存储展示,实时监控等一系列问题,本文针对各功能模块进行了深度整合,使得它们可以在总体框架下正常运行;3)设计了通过Storm对Web日志进行计算的业务流程,其中包含了 K-means++算法和滑动窗口在Storm上的应用,并予以编程实现。经过系统功能验证,结果由Web页面展示;4)对运行的系统进行了状态监控,并通过对比分析提出了一些基于Storm的系统优化方法。