基于大数据的社区用户行为分析系统的设计与实现

来源 :装备维修技术 | 被引量 : 0次 | 上传用户:gdat86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文以大数据主流技术SparkCore和SparkSQL为主,搭配主流前端框架SpringMVC,系统前端方便社区管理者操作,提供高交互性、清晰易懂的可视化界面;后端优化分析算法,提高执行效率,增强代码鲁棒性和可扩展性,实现了社区用户消费行为分析预测、上网指数分析等功能,为管理者制定更合理高效的决策提供依据。
  关键词:社区用户;行为分析;Spark技术
  1 引言
  随着中国国力的快速提高,人们对居住条件及其所在社区提供的服务都有了更高的要求。社区一般由第三方物业公司管理或社区用户自治,每一个社区都会有相应的社区管理者去决策。如果管理者能够提供合理决策,分配合适资源,居民的幸福感就会提升。由于不同环境、不同地区、不同时间下,两个社区往往存在着较大的差异,社区用户间的需求和生活习性也截然不同,社区的管理不能仅凭经验。根据中国民政部2020年2季度民政统计数据显示,现今全国共有51.7万个村委会,11.1万居委会,如此庞大数量下社区管理者与住户之间往往存在诸多矛盾,社区管理者认为住户感受过激、特例化;而社区住户认为管理者管理经验不足,不能合理分配资源,出现决策无效甚至失误。本文采用大数据技术解决以上矛盾,大数据技术提供了一种能够客观、实时反映某个时段内社区用户行为的方式,社区管理者依据大数据分析结果,实现多角度掌握社区用户行为,通过可视化界面及时察觉异常数据,从而提供有效决策。
  2 大数据相关技术
  2.1 Spark
  Spark作为一款优秀的大数据开发技术,是一个专门为大规模数据而生的基于内存的实时计算引擎。其有四大特点,分别是速度快,相较于Hadoop,相同数据量Spark快100倍;易用性,提供了丰富的API借口,包含Python、Java、Scala等;通用性,提供一站式服务,包含核心SparkCore、使用SQL语句的SparkSQL、实时处理的SparkStreaming、机器学习的MLlib等;运行在任何地方,本身以.class形式存储,可以直接在JVM中运行。
  2.2 SpringMVC
  SpringMVC是一个较为优秀的Java Web开发框架,相较于以前的Web开发,其做了非常多的优化,将核心部分做了分工,分为M(Model),V(View),C(Controller),大大降低了耦合,同时增强了内聚,节约了开发人员的学习成本,提高开发效率,减少失误可能性。
  2.3 Clickhouse
  Clickhouse是一个列式数据库,建立该数据库的目的在于对数据进行快速的在线分析与处理。Clickhouse數据库的优点包括:紧凑数据格式、数据压缩、数据存储在磁盘、多核处理、支持分布式、支持部分SQL、数据实时更新等。
  3 系统架构设计
  在大数据开发流程设计中需要先确认数据的输入和输出,分别是社区管理者提供的源数据文件和数据库结果表;其次确认输入的数据量总和,输出的数据量是结果表,数据量较小。由于分析结果既要生成结果表,还要展示到前端界面,需要一定的即时性和交互性,因此本系统选用Spark技术,由于Hive和MapReduce等技术适用于离线分析,一般用于在每天凌晨处理昨日的数据,而Spark则是基于内存实时处理,选用Clickhouse来存储更合适。同时Spark提供了一站式服务,有专门针对数据库的SparkSQL,设计大数据开发架构如图1所示。
  4 系统功能设计
  系统采用模块化思想,结合归纳法和演绎法进行设计。模块化思想要求每个子模块都具有一致的数据结构、一致的代码风格规范以及一致的操作流程,使用这种方式可以将一个复杂模块抽象为若干个逻辑清晰功能统一的子模块,从而提高代码复用性,增强代码的可扩展性,减少维护的成本并提高开发人员的开发效率。归纳法即在以往相似系统设计集的基础上,进行需求相关的二次设计,虽然能保证系统设计不会出现全局上的失误,但是往往也得不到有效的结构创新和改革。演绎法通过总结规律,根据普遍规律自下而上抽象出整个系统的逻辑。使用这种方法能够个性化定制系统,具有最合适最能满足需求的特点,但开发成本大幅度提高,也更容易出错,开发周期延长。因此开发过程中,最好的方式就是将两者结合,这两种方法的任何一个缺点都会严重影响本系统的质量,故需要中和两种手段并积极发挥优势的一面。依据以上方法,在社区用户行为分析系统中抽象设计出三大模块,各个模块下继续划分多个子模块,真正意义上实现了模块与模块间的低耦合,模块内部的高内聚。消费行为分析模块包括消费地点排名分析、消费能力分析和消费分布分析。借书行为分析模块包括总借阅图书排名分析、月借阅图书排名分析、各类别借阅图书排名分析、总借阅图书作者排名分析、借阅用户性别比例分析、借还书时间段分析、总借阅图书出版社排名分析和社区用户阅读量排名分析。上网行为分析模块包括网络使用高低峰分析和上网指数分析。系统结构如图2所示。
  5 用户行为数据分析与实现
  本质而言,Spark算法与Hadoop算法极为相似,但Spark算法能够更好地进行数据挖掘、机器学习技术方面的应用。在运算过程中,用户行为的数据信息统一存储在HDFS中,通过对数据的读取,可以获取频繁项集的全局支持度,最终将计算后的频繁项集保存在HDFS中。
  5.1 用户消费能力分析
  该算法目的是分析社区用户每个人的消费能力,并进行赋分和排名。该算法实际业务作用为筛选重点消费人群,并在后续社区开发中重点培养和关注。该模块是用户粒度,因此需要平铺展开所有消费指标并计算比值,最后根据权重算法得出最终排名。算法流程图如图3所示。
  5.2 借阅图书用户性别比例分析
  该算法主要分析借阅群体在所有群体中的占比以及借阅群体中男女分布情况。该算法逻辑较为复杂,需要多个数据源分步计算多个指标,并需从不同维度上得到的临时结果再度整合才能完成,算法流程图如图4所示。
  5.3 用户网络使用高低峰分析
  网络使用高低峰算法主要分析在不同时间段社区用户每个人的上网情况,并且分析出每个人上网的高峰期和低谷期,是用户粒度的需求。算法流程图如图5所示。
  6 用户行为数据应用
  数据应用方面,包括对数据的展示、数据智能推荐、用户行为预测三部分。数据展示方面,是通过 Sprintboot提供的数据访问接口,对Mybatis进行持久化框架连接和应用。同时,Angular组件在系统中的应用,可以加快信息数据应用的响应速度,有利于系统数据信息处理质量的提升。最后,通过Echarts,将信息动态以直观的形式展示给用户。在数据智能推荐方面,基于内容过滤的推荐算法、双重聚类算法的融合,形成混合推荐技术。通过该技术的应用,可以对用户行为日志进行读取、分析,并在此基础上,对用户行为进行关于服务内容的智能推荐。用户行为预测方面,基于数据包的重组算法,可以根据用户行为的相关数据,实现网络数据信息的重组。
  7 结语
  本文阐述了构建用户行为分析系统的背景及意义,考虑到海量评价数据所带来的挑战,将数据存储、处理及用户行为模型构建与Spark技术相结合,设计了基于大数据平台的用户行为分析系统,系统主要包含用户消费能力分析模块、用户行为预测模块,每个模块有特定的功能,实现了用户行为信息的有效分析和深度应用,为社区管理者提供了进行有效决策的数据展示。
  作者简介:
  侯菡萏(1979.02—),女,汉,黑龙江省哈尔滨市,硕士,副教授,哈尔滨金融学院计算机系,研究方向:数据分析与数据挖掘。
  课题:黑龙江省高等教育教学改革项目(SJGY20190265)《线上线下混合式“金课”的研究与实践——以“数据库原理及应用”课程为例》
其他文献
摘 要:当前随着国家经济水平的快速提升,建筑业得到了快速发展,建筑工程项目管理对于工程质量产生了重要影响,因此需要完善工程项目管理工作,在工程项目实施阶段进行科学合理的进度控制是极为必要的。然而现阶段,我国的一些工程项目工作由于各种因素的制约影响了进度控制质量,因此在工程项目管理工作中需要首先明确施工进度控制的作用以及影响进度控制的因素,继而可以采取改善措施,以此提升实施阶段的工程进度控制水平。本
期刊
摘 要:本文以飞鲤镇跃进圩南大堤除险加固为例介绍多头小直径截渗墙设计,分析了截渗墙技术应用现状,提出了技术参数要求,保证工程质量。  关键词:水利工程;截渗墙;应用  引言  跃进圩位于郎溪西南部,距县城15km,东与十字镇接壤,北邻东、西撇洪河,南抵飞里新河,西濒南漪湖。跃进圩历史上洪灾频发,1983年、1984年汛期在南大堤决口,决口共4处。特别是1999年6月29日7时,跃进圩西大埂决口,决
期刊
摘 要:本文为探究叶轮热态间隙对超临界二氧化碳压气机性能的影响,在一个现有设计压比2.5超临界二氧化碳压气机模型上,选取叶轮计算间隙0.1mm-0.3mm,通过三维流场计算,结果表明:随着叶轮计算间隙增大,叶轮堵点流量、压比、效率降低;叶尖低速区会形成涡,叶轮通道间的二次流增强。当叶轮计算间隙从0.2mm增至0.3mm时,压气机堵点流量下降2.5%,压比下降2.85%,效率下降3.5%。性能的衰减
期刊
摘 要:预制箱梁以其结构轻盈、配筋少、稳定性好、施工速度快捷等优点,在国内外普遍使用,其施工方法也普遍被工程师们共识,但如何通过新工艺、新材料的应用来改善预制箱梁的实体和外观质量以及生产效率就是值得深入探讨的一个课题,福厦铁路4标灵川制梁场一直致力于40.6m预制简支箱梁施工工艺的研究,完善、建立了科学的箱梁施工工艺方法,在预制箱梁在预制箱梁关键程序的施工中更是不断地寻求新办法,采用科学先进的新工
期刊
摘 要:传统的钢筋下料方式存在信息流通不对称、效率低、钢筋原材料计划不准、成品信息追踪难、各环节重复数据录入和分析等缺点,需要非常专业的工程师下料及技术交底。而基于BIM技术的钢筋自动化建模技术,建模效率高、并能与钢筋加工机器接口对接实现自动化加工、最关键的是还能实现余料的自动分类与再利用。此外,基于BIM技术的智能化钢筋加工自动化程度高,大大提高生产效率,可以有效缩短工程工期;同时还能保证施工现
期刊
摘 要:滚切式双边剪广泛应用于宽厚板生产线,采用斜刃剪方式对切边后的废料进行碎断处理,目前对双边剪主剪剪切机构及剪切力研究者颇多,相关文献已有不少可参考,而对于碎边剪的剪切力研究文献甚少。本文利用常用的斜刃剪剪切力计算公式即富姆公式及deform仿真软件对碎边剪剪切力进行了分析。分析结果表明富姆公式只适用于小间隙的剪切力计算。  关键词:双边剪;碎边剪;剪切力;仿真;deform  Abstrac
期刊
摘 要:介绍了上海电气泰雷兹CBTC信号系统的特点和知识,引入魔鬼车问题,给出TST的设计和解决方案,阐述了软件的逻辑和算法及软件适用的边界及优化,给出了安全分析,结合这个案例和TST相关流程给出开发设计管理的一些思考。  关键词:CBTC ; ZC; MAU; 幽灵车; FO; NCO; 区段  Abstract: This paper introduces the characteristic
期刊
摘 要:供水设备是城市生产制造中保障生活正常运转的基础设备。居民的日常生活与城市供水密切相关。供电管道是供水的命运线,担负着将生命之源传递到千家万户的使命。可以说,供水管网的安全和运行直接影响居民的生活质量。随着城镇化进程的加快,供电工作的快速发展,利用信息化管理方法提高管理能力和高运营效率是供电企业发展遇到的重点课题。我市根据近年来的实践,探索出一条适合城市供水管网管理方式的重要途径,进一步完善
期刊
摘 要:提出一種用于大功率供电的MOSFET与散热器安装的工装设计方法,特别是同一块PCB板卡上需要紧密布局多个MOSFET的情况下,工装设计能够协助工人在批量生产中,快速、准确的完成安装过程,提高安装效率,降低安装成本,以及保证MOSFET元器件与散热器的良好接触,从而确保板卡的正常运行。  关键词:MOSFET;大功率;工装;散热  1 引言  线路板或电路板用于电子元器件的支撑和电气连接,电
期刊
摘 要:近十年来,随着社会经济的发展,为我国建筑工程行业提供广阔的发展空间,从而导致建筑工程的规模逐渐增大,相应的施工难度也越来越高,而人们对建筑工程的质量也提出了更高的要求。因此,需要建筑企业加强建筑工程的管理以及对施工质量进行有效的控制,全面提高建筑工程的质量。但在实际施工过程中,建筑工程管理以及质量控制会受到人为因素和外界环境的影响,不利于管理工作顺利进行。本文从建筑工程的管理以及质量控制中
期刊