基于Spark的查询日志用户行为系统的设计与实现

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:kyy06
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的快速普及,使用搜索引擎的用户规模正在逐渐增加,产生的日志信息呈现爆炸性的增长,海量搜索日志所带来的价值,引起了各个搜索类互联网企业的广泛关注。为了在未来的市场中占据主动,抓住数据所带来的财富,企业纷纷开始研究和分析用户的日志信息,从中发现用户的搜索意图和兴趣偏好,挖掘用户的行为特征,方便为用户提供精准和个性化的服务。然而,企业在处理海量用户日志信息的同时,面临着来自两个方面的挑战。一方面是随着对用户行为的深入分析,需要使用大量的数据挖掘算法,同时在对用户行为进行实时场景的分析上,需要具有计算速度快、低时延、高容错的要求。传统的单机操作远远不能满足海量数据处理的要求,在MapReduce集群上进行大量的迭代计算和结构化数据流的处理,会产生大量的时延,不能满足系统的要求。另一方面是海量搜索日志的存储问题,传统关系型数据库的可扩展能力有限,不能满足数据持续增长的存储需求。基于以上问题的分析与研究,在阅读了大量的相关文献资料之后,本文通过对用户的需求进行详细的分析后,设计一个基于Spark的查询日志用户行为系统,该系统主要划分为四个模块,分别是日志采集模块、日志存储模块、日志分析模块、日志可视化模块。日志采集模块主要是使用Flume分布式日志采集系统对各个服务器的查询日志进行采集。日志存储模块主要是把Flume采集的日志存储到HBase和Kafka中。其中最重要是日志分析模块,该模块主要分为实时统计分析、离线数据统计分析、离线数据挖掘分析。实时统计分析主要是使用Structured Streaming处理存储在Kafka集群中的日志信息,实现实时热门话题和话题总数的统计。离线数据统计分析主要是使用Spark SQL对数据仓库Hive的离线数据进行处理并把结果存储到MySQL数据库中。离线数据统计分析的内容主要包括用户关键词统计分析、用户查询日志指标分析、Rank排名与用点击次数统计分析、URL点击排行榜统计分析。离线数据挖掘分析主要是使用MLlib库中的朴素贝叶斯和K-Means算法,对用户的查询主题进行分类和聚类。日志可视化模块主要是使用ECharts图表和Spring Boot框架,把日志分析模块的结果进行可视化展示,方便业务人员能够清晰的掌握用户行为分析的结果。设计与实现用户行为分析系统,有利于更加高效的统计用户的行为信息和挖掘用户的行为意图,提高企业的市场竞争力。
其他文献
目前,高频地波雷达以其超视距探测、全天候工作等特点受到人们广泛关注。由于工作频段限制,高频地波雷达的布阵场地往往非常大。在保证雷达探测性能的前提下减小系统占地面积
近年来,高寒草甸生态系统大面积退化,严重威胁着整个青藏高原地区的生态安全和经济发展,加快研发退化草地的恢复技术并探索其恢复机理,成为当地生态建设与畜牧业发展亟待解决
词汇在二语学习过程中发挥着重要的作用。然而,实际英语教学中,由于教师词汇教学时间有限、学生学习方法不当等原因,词汇习得效率一直较低,最终使得词汇演变成语言学习过程中
尽管标准模型在粒子物理领域的地位是毋庸置疑的,但是在暗物质候选者和中微子质量问题上却无能为力。诸多宇宙和天文观测实验(例如星系旋转曲线、星系团中X射线气体的行为、
本文介绍了一种新的暴胀模型,即DBI激发的动力学非最小耦合(Dinkic)暴胀模型。此模型用包含一个非最小动力学耦合项,而且通过引入一个DBI-type形式的作用量,修正项将会以非线
极化敏感阵列较普通阵列可获得极化信息,具有更高的系统分辨力,本文主要研究极化-波达方向(Direction Of Arrival,DOA)联合估计算法。天线阵的布设受到实际环境的限制,在制作
众所周知,玉米是世界三大粮食作物之一,在生产和生活中扮演着重要的角色。它既可以作为食品加工原料,又可以作为畜禽饲料和工业原料。玉米具有产量大,种植面积分布广的特点,
真核生物中,蛋白质磷酸化是细胞内最重要、最普遍,也是最基本的调节方式之一,在细胞周期、细胞生长、细胞凋亡和信号转导通路等细胞进程中起重要的调节作用。蛋白磷酸酶1(PP1
植物更新限制在生物保护、生物多样性研究以及群落构建等方面是热点问题。了解植物更新机制对保护生物意义深远,尤其是对于濒危物种。种群更新限制分为种子限制和生境限制,根
随着人工智能、大数据等技术的不断发展,物联网的应用范围越来越广泛,使得物联网设备间的合作需求也逐渐增加,为此需要建立物联网信任机制以提高物联网设备的合作成功率与可