【摘 要】
:
大数据用户画像系统工程化开发过程中经常会遇到一系列数据倾斜问题。数据倾斜会造成系统计算处理性能大幅度降低导致系统响应时间无法达到产品端需求标准。工程化开发和测试中在Spark、Hive、Kafka等组件上进行离线或实时ETL作业时极易出现数据倾斜情况。针对以上问题,提出了通过ETL预处理、过滤key、自定义分区合并小文件、缓存中间数据等调优技术解决方法,并且采用SQL主键优化、随机数分配、自定义分区策略等方法和手段实施实验研究,结果表明这些方法可以显著优化MapReduce作业流程,减少系统任务调度的整体
论文部分内容阅读
大数据用户画像系统工程化开发过程中经常会遇到一系列数据倾斜问题。数据倾斜会造成系统计算处理性能大幅度降低导致系统响应时间无法达到产品端需求标准。工程化开发和测试中在Spark、Hive、Kafka等组件上进行离线或实时ETL作业时极易出现数据倾斜情况。针对以上问题,提出了通过ETL预处理、过滤key、自定义分区合并小文件、缓存中间数据等调优技术解决方法,并且采用SQL主键优化、随机数分配、自定义分区策略等方法和手段实施实验研究,结果表明这些方法可以显著优化MapReduce作业流程,减少系统任务调度的整体
其他文献
本文介绍了无人机基站运行参数、网络结构、实战应用等情况,从技术、实践两个层面分析了无人机基站的应用优势和适用场景。
基于多个AGV应用场景调度控制系统软件的复杂性,提出了一种通用功能的自动导引小车调度系统软件结构,并在此结构的基础上采用适用于依赖注入的数据模型,并且给出了该种数据模型的类结构和接口设计方案,并以运输订单为例阐述订单实现过程的软件实现方法。该设计对专用AGV调度控制系统软件进行重新构造,不仅降低了软件模块的耦合性,也使得软件的开发效率和迁移性得到提高。
针对一类离散线性系统考虑其输入量和状态量在给定约束条件下,通过显式的处理约束条件设计了一种带有终端约束集的双模式模型预测控制器。首先,通过离线计算的方法设计了一种多面体终端约束集,利用状态和输入约束条件得到初始可行集;其次,通过求解在线优化问题并且引入正不变集的概念设计了双模式模型预测控制器;最后,利用李雅普诺夫稳定性判据证明了闭环系统的渐进稳定性。仿真实验表明,与标准模型预测控制器相比具有终端约束的模型预测控制器具有更好的性能。
利用人工智能技术进行手写数字识别可以化解教师人工录入分数的繁琐工作,实现试卷自动合分,减少统分错误。通过问卷收集不同人的手写数字,建立了0~69手写数字TFRecord标准数据集,利用深度学习卷积神经网络方法,设计出一种试卷手写红色分值识别的Python程序。针对一张试卷记分栏目的图像,实现了准确定位该图像中试卷登分栏目、切割每大题分数为32×32小图片,以及利用卷积神经网络训练结果对每大题小图片
分析了电梯维保、应急处置等安全管理的关键控制环节和主要节点,开展基于移动互联网技术和智能终端的电梯应急管理系统的架构和功能设计等,基于uni-app框架研发实现电梯维保、应急处置等功能,具有跨平台、兼容多种形式访问接入等特点。系统在济南市进行了应用,实践表明,系统满足电梯使用、维保、监管等多环节安全管理需要,能够支撑电梯应急处置三级响应机制的实现,提升了电梯公共安全水平。
依据列车车号识别的一般步骤,分别对列车车号定位、列车车号字符分割和列车车号识别当中所运用的技术方法展开了论述,并对该方法下的实验结果进行了表述。首先论述了基于多种方法相结合的列车车号定位方法和基于深度学习的列车车号定位方法;其次论述了基于投影法的列车车号字符分割方法和基于连通域分析法的列车车号字符分割方法;然后论述了基于模板匹配、BP神经网络、支持向量机、卷积神经网络和循环神经网络的列车车号识别方
层次分析法(analytic hierachy pocess,AHP)作为一种辅助决策方法在解决生产、经营,尤其是项目投资中的决策,具有实际的意义.面对AHP分析中出现很多各阶判别矩阵及大量的数据处理问题,设计Python程序可以快速、准确且有效地得到解决.课题针对AHP分析步骤,对所设计的Python各模块的特点及作用进行分析.据此,结合长三角区域企业IT知识需求的数据挖掘,运用AHP解决学校IT专业设置或调整进行实证分析.
针对涉警舆情网络传播进行研究,通过处理“弗洛伊德之死”的转推、关注度等数据,建立了SIR传染病模型,展现出关注人数和每日变化情况。采用Runge-Kutta方法有效预测了不同参数取值的情况下未来数日的关注人数发展趋势,最后通过粒子群优化的BP神经网络算法对参数进行反演,有效拟合出“弗洛伊德之死”涉警舆情网络传播趋势。相较于传统SIR传染病模型,本改进模型基于涉警舆情中不同种类的人群之间相互转化、传播的规律而建立,并且运用参数反演的方法,选取一组最贴近实际的参数值,使预测准确度更高,模型拟合值与真实
减少碳排放量,控制电器设备能耗是其中重要的一环,非侵入式负荷监测是一种有效的控制电器设备能耗的手段。针对常规非侵入式负荷监测难以区分不同电器的种类问题,提出了使基于卷积神经网络的识别方法。从电流的噪声特性出发,通过分解噪声特性并利用该特性作为神经网络的输入参数进行训练。拟合完成后便可以通过该特性识别不同种类的电器设备。结果表明,电流噪声特性对于容性、感性和复杂电器特性的电器设备拥有良好的区分效果,并且选用的神经网络识别效率高。
主要介绍了利用Ajax和MVC框架的基本原理,打造装备资源网络共享平台,实时掌握内外部闲置、备用装备信息,实现装备总成部件及时调配、共享共用,全面提升装备保障效率和提质创效能力。其中包括主流技术(MVC框架、Easy UI前端框架、SqlServer2016数据库等),开发了一套基于B/S模式的资源共享系统,以及这些技术解决了资源共享系统研发时出现的实际问题。操作简单便捷,开发成本低、效率高,而且方便维护和功能扩展,具有较高的扩展性和可靠性。