基于Spark的查询日志用户行为系统的设计与实现

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户：kyy06

【摘要】

：

随着网络的快速普及,使用搜索引擎的用户规模正在逐渐增加,产生的日志信息呈现爆炸性的增长,海量搜索日志所带来的价值,引起了各个搜索类互联网企业的广泛关注。为了在未来的

【作者】

：

张煜福

【出处】

：

曲阜师范大学

【发表日期】

：

2004年期

【关键词】

：

查询日志用户行为分析 Spark MLlib

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络的快速普及,使用搜索引擎的用户规模正在逐渐增加,产生的日志信息呈现爆炸性的增长,海量搜索日志所带来的价值,引起了各个搜索类互联网企业的广泛关注。为了在未来的市场中占据主动,抓住数据所带来的财富,企业纷纷开始研究和分析用户的日志信息,从中发现用户的搜索意图和兴趣偏好,挖掘用户的行为特征,方便为用户提供精准和个性化的服务。然而,企业在处理海量用户日志信息的同时,面临着来自两个方面的挑战。一方面是随着对用户行为的深入分析,需要使用大量的数据挖掘算法,同时在对用户行为进行实时场景的分析上,需要具有计算速度快、低时延、高容错的要求。传统的单机操作远远不能满足海量数据处理的要求,在MapReduce集群上进行大量的迭代计算和结构化数据流的处理,会产生大量的时延,不能满足系统的要求。另一方面是海量搜索日志的存储问题,传统关系型数据库的可扩展能力有限,不能满足数据持续增长的存储需求。基于以上问题的分析与研究,在阅读了大量的相关文献资料之后,本文通过对用户的需求进行详细的分析后,设计一个基于Spark的查询日志用户行为系统,该系统主要划分为四个模块,分别是日志采集模块、日志存储模块、日志分析模块、日志可视化模块。日志采集模块主要是使用Flume分布式日志采集系统对各个服务器的查询日志进行采集。日志存储模块主要是把Flume采集的日志存储到HBase和Kafka中。其中最重要是日志分析模块,该模块主要分为实时统计分析、离线数据统计分析、离线数据挖掘分析。实时统计分析主要是使用Structured Streaming处理存储在Kafka集群中的日志信息,实现实时热门话题和话题总数的统计。离线数据统计分析主要是使用Spark SQL对数据仓库Hive的离线数据进行处理并把结果存储到MySQL数据库中。离线数据统计分析的内容主要包括用户关键词统计分析、用户查询日志指标分析、Rank排名与用点击次数统计分析、URL点击排行榜统计分析。离线数据挖掘分析主要是使用MLlib库中的朴素贝叶斯和K-Means算法,对用户的查询主题进行分类和聚类。日志可视化模块主要是使用ECharts图表和Spring Boot框架,把日志分析模块的结果进行可视化展示,方便业务人员能够清晰的掌握用户行为分析的结果。设计与实现用户行为分析系统,有利于更加高效的统计用户的行为信息和挖掘用户的行为意图,提高企业的市场竞争力。

其他文献

收发一体HFSWR发射波束形成关键技术研究及控制实现

目前,高频地波雷达以其超视距探测、全天候工作等特点受到人们广泛关注。由于工作频段限制,高频地波雷达的布阵场地往往非常大。在保证雷达探测性能的前提下减小系统占地面积

学位

高频地波雷达发射波束形成系统控制软件通道不一致性补偿

高寒草甸植物功能性状与群落构建对不同干扰的响应

近年来,高寒草甸生态系统大面积退化,严重威胁着整个青藏高原地区的生态安全和经济发展,加快研发退化草地的恢复技术并探索其恢复机理,成为当地生态建设与畜牧业发展亟待解决

学位

高寒草甸土壤肥力梯度植物功能性状环境筛选性状分歧

注释语言及位置对高中生英语阅读中词汇附带习得的影响

词汇在二语学习过程中发挥着重要的作用。然而,实际英语教学中,由于教师词汇教学时间有限、学生学习方法不当等原因,词汇习得效率一直较低,最终使得词汇演变成语言学习过程中

学位

注释语言注释位置高中生英语阅读词汇附带习得

暗物质在Seesaw机制扩充的NMSSM模型中的对比研究

尽管标准模型在粒子物理领域的地位是毋庸置疑的,但是在暗物质候选者和中微子质量问题上却无能为力。诸多宇宙和天文观测实验(例如星系旋转曲线、星系团中X射线气体的行为、

学位

次最小超对称标准模型Type-Ⅰ SeesawInverse Seesaw暗物质中微子伴子

势能驱动下DBI激发的动力学非最小耦合（Dinkic）暴胀与观测数据的比较

本文介绍了一种新的暴胀模型,即DBI激发的动力学非最小耦合(Dinkic)暴胀模型。此模型用包含一个非最小动力学耦合项,而且通过引入一个DBI-type形式的作用量,修正项将会以非线

学位

DBI暴涨极早期宇宙非最小耦合动力学耦合PLANCK/BICEP

非规则阵极化-DOA联合估计快速算法

极化敏感阵列较普通阵列可获得极化信息,具有更高的系统分辨力,本文主要研究极化-波达方向(Direction Of Arrival,DOA)联合估计算法。天线阵的布设受到实际环境的限制,在制作

学位

极化-DOA非规则阵快速算法非相干信源相干信源

基于MPGA-siPLS特征波长选择算法的玉米成分含量分析研究

众所周知,玉米是世界三大粮食作物之一,在生产和生活中扮演着重要的角色。它既可以作为食品加工原料,又可以作为畜禽饲料和工业原料。玉米具有产量大,种植面积分布广的特点,

学位

光谱分析波长选择多种群遗传算法联合区间

拟南芥Ⅰ型蛋白磷酸酶（TOPPs）家族功能的初步探究

真核生物中,蛋白质磷酸化是细胞内最重要、最普遍,也是最基本的调节方式之一,在细胞周期、细胞生长、细胞凋亡和信号转导通路等细胞进程中起重要的调节作用。蛋白磷酸酶1(PP1

学位

蛋白磷酸酶TOPPs功能冗余性生长素

濒危物种水杉（Metasequoia glyptostroboides）自然种群的更新限制研究

植物更新限制在生物保护、生物多样性研究以及群落构建等方面是热点问题。了解植物更新机制对保护生物意义深远,尤其是对于濒危物种。种群更新限制分为种子限制和生境限制,根

学位

水杉种群种子雨和土壤库自然更新限制种子添加实验移苗实验

分布式物联网中的信任管理系统的设计与实现

随着人工智能、大数据等技术的不断发展,物联网的应用范围越来越广泛,使得物联网设备间的合作需求也逐渐增加,为此需要建立物联网信任机制以提高物联网设备的合作成功率与可

学位

物联网信任管理区块链规范信任风险

基于Spark的查询日志用户行为系统的设计与实现

其他学术论文