【摘 要】
:
随着互联网技术的高速进步,传统工业领域应用互联网技术的情况越来越普遍。工业系统中数据的重要性不言而喻,而传统行业中的企业在数据管理方面能力的欠缺以及数据管理工具的缺失,加之数据来源多样化且异构性高,导致大量工业数据或是质量不高、或是同一企业分布在不同业务系统中的数据之间形成信息孤岛等等,使得数据中的信息得不到有效利用,这其中蕴藏的大量宝贵财富被浪费。针对上述场景,如何高效地集成及清洗多源异构数据,
论文部分内容阅读
随着互联网技术的高速进步,传统工业领域应用互联网技术的情况越来越普遍。工业系统中数据的重要性不言而喻,而传统行业中的企业在数据管理方面能力的欠缺以及数据管理工具的缺失,加之数据来源多样化且异构性高,导致大量工业数据或是质量不高、或是同一企业分布在不同业务系统中的数据之间形成信息孤岛等等,使得数据中的信息得不到有效利用,这其中蕴藏的大量宝贵财富被浪费。针对上述场景,如何高效地集成及清洗多源异构数据,将来自不同数据源以及不同结构的数据抽取并按统一的结构存储是工业界数据管理所面对并需要解决的问题。本文研究并设计了一款物流系统数据实时集成平台,该平台基于Kettle开发,采用B/S架构进行改造,提高了平台灵活性,同时为用户省去下载安装等步骤所花费的时间。结合基于变动数据捕获技术和元数据驱动实现实时抽取功能,弥补Kettle在实时性方面的不足和欠缺。本平台支持对多种关系型数据库、非关系型数据库以及文件存储形式的数据集成及清洗。除此之外,本平台提供了便利的清洗、集成作业设计界面以及完善的数据集成作业调度功能,以及完备的权限认证能力,提高了系统和数据安全性。最后,本文还实现了一套客户数据分析系统,数据来源为使用物流系统数据实时集成平台所集成的某物流公司业务数据,该系统前端基于Echarts图表库开发,为数据分析提供了便利。本文从软件工程研发流程的角度出发,首先将物流系统数据实时集成平台划分为实时抽取模块、任务管理模块、权限认证模块、客户分析系统等子模块和子系统。合理地对各模块进行需求分析以及功能介绍,设计各模块的具体功能、属性以及逻辑。随后对系统整体架构进行设计,包括其软件架构、模块结构等。接着介绍了各功能模块的具体实现过程和功能流程以及部分核心功能实现原理,并对Kettle进行B/S架构改造,摒弃其原有的C/S架构,提高其使用灵活度。最后对物流系统数据实时集成平台和客户分析系统进行了性能测试和功能测试,验证了平台的可用性和并发能力。
其他文献
随着全球老龄化的日趋严重,共病共存现象已经变得越来越普遍,如今成为对老人生命安全的最大威胁因子。由于共病间可能存在某些内在联系,对于治疗和护理都会带来许许多多问题,因此充分了解慢病间的关联性,患者和疾病的关系等多元信息成为解决共病的关键因素,有利于对共病进行综合诊断和科学的护理。本文基于2015年1月1日至2019年12月31日某区域的二级以上医院住院的病案首页数据信息,为了充分挖掘数据信息,了解
随着深度神经网络技术的不断发展,使用深度学习处理医学图像逐步成为医学图像处理研究领域中的热点问题。其中彩色眼底图像是眼科疾病筛查中一类较为常见的医学图像,它主要包括了视盘、视杯、血管和黄斑区等结构,这些结构的形态可以为某些疾病提供重要的诊断依据,如视杯与视盘的直径比值可以用于青光眼的诊断,出血、渗出、微血管异常等可以作为糖尿病的诊断依据,视网膜动脉病变可能是高血压的症状之一。为了准确地判读眼底图像
生物特征识别技术在各种智能终端的身份验证场景中起到越来越重要的作用。在生物特征识别技术中,声纹识别是最热门的技术之一。声纹识别根据应用场景分为声纹辨认和声纹确认,根据语音文本内容分为文本相关和文本无关两类。本文主要研究难度较大且应用范围更广的文本无关声纹识别,采用深度卷积神经网络提取声纹特征,在两个开源的数据集上分别进行声纹辨认和声纹确认的实验,最后使用前后端分离的技术设计并实现了Web端的声纹识
在当今数字化时代,高动态范围(High Dynamic Range,简称HDR)图像可以带给大众更极致的视觉体验。当前HDR图像重建计算可以被归为两大类:基于单帧低动态范围(Low Dynamic Range,简称LDR)图像的HDR图像重建任务及基于多帧LDR图像的HDR图像重建任务。经过调研发现,目前,基于单帧LDR图像的HDR重建由于在亮曝区域存在信息缺失,导致重建结果在该处易出现亮斑和伪影
近年来,深度学习及其相关模型在安防、金融、交通、医疗等众多领域均有应用,是智能化信息化系统的核心技术,而其样本数据关系到深度学习算法的有效性与可用性,再加上深度学习算法具有良好泛化能力的同时也伴随着极度的脆弱性,导致其容易遭受攻击,且后果难以估量。对抗样本的出现对深度学习模型的安全性产生了严重威胁,只有在了解对抗样本的前提下,才能构建出更加稳固的模型。因此,本文立足于深度学习模型的安全性及可用性,
近年来,网络安全攻击行为变得越来越频繁。其中,恶意URL在网络攻击中扮演着重要的角色,如钓鱼网站、身份盗窃、金融诈骗、恶意软件、垃圾邮件等。如何有效地检测恶意URL,成为防范不断增加的网络攻击的关键问题。传统的恶意URL检测方法由于需要大量的特征识别工作,已经无法跟上恶意URL的快速增长速度。利用深度学习技术构建可泛化的模型以实现对URL的识别与分类,已经成为URL检测领域的研究问题。本课题的主要
行人属性作为一种最利于人类理解的生物特征,是智能视觉监控系统中最重要的识别目标之一。行人属性识别旨在从给定的图像中找到目标行人所具有的属性标签,由于能够提供关于人类语义特征的重要信息,该类算法已经越来越多地被集成到安全、商业等领域的实际应用中。本文以基于深度学习的行人属性识别为研究内容,通过对现有算法的分析,发现现有算法倾向于通过在网络中联合全局与局部两个路线以利用人体区域信息取得更好性能,但仍具
人对机器人的信任程度很大程度上会影响到人机协作的效果。目前为止,国内外对于人机的信任度研究成果有限,但是人机的信任度研究已经逐渐成为国内外一个热点问题,而基于外骨骼机器人的人机信任程度研究更是一片空白。随着截瘫助行外骨骼机器人临床测试工作的深入,其信任度对于人机协作效果的影响也逐渐凸显出来。信任作为人的主观因素,对其影响因素的分析与测量是研究的前提。本文针对该问题,对人与外骨骼系统的信任度影响因素
目标检测是计算机视觉领域最重要的任务之一,是其他更高级任务(例如实例分割、行人重识别等)的基础,在智能监控、无人驾驶和医疗影像识别等领域已经得到广泛的应用。然而由于小尺寸目标本身存在的特性(像素点少、边缘模糊等),主流的目标检测算法对小目标的检测仍然存在漏检率高和识别率低等问题。为了解决小目标检测中存在的问题,本文在基于关键点的目标检测算法上展开研究,分别从以下三个方面对现有工作进行改进:(1)提
随着计算流体力学(CFD)应用的精度需求不断提升,网格量越来越大,CFD产生的流场数据量达到了TB甚至PB量级。流场数据的时空复杂性提升,会导致时空特征难以辨认,也需要研究者耗费更多的时间人工抽取关键信息帮助认知流场中的复杂流动机理。如何自动抽取流场特征及关键时间步,将成为研究的热点,也是研究者面临的巨大挑战。近年来,深度学习的快速发展给各领域解决问题提供了新的思路。深度学习技术可以对海量数据进行