论文部分内容阅读
在大数据时代,随着信息量快速扩展,数据质量得到了人们越来越广泛的关注。尤其随着移动互联网的发展,物联网作为一种重要的信息技术,通过RFID、传感器等方式,产生了大量的数据和信息。数据质量作为有效处理和分析利用大数据的前提条件,是保障企业使数据产生价值和获得收益的根本。公交车辆CAN总线数据是通过北京市公交集团车辆CAN数据综合应用平台采集。CAN总线,即控制器局域网(Controller Area Network),又被称做CAN-bus,是由Bosch公司率先研发的新一代汽车总线,用于采集车辆各个核心部件的数据。目前北京公交集团已有5千辆新车开始实现发动机、车辆电气门等装置的实时状态数据采集。总体来说,公交CAN总线数据的数据质量不高,数据中存在不完整、不一致、重复记录等问题。造成这些问题的原因是多方面的,其中一个方面是由于物联网技术在公交车辆上的应用刚处于起步阶段,公交车辆的传感器装置并不能正确的采集到全部数据;另一方面,缺乏对采集到的数据的管理也是造成数据质量问题的重要因素。本文以公交车辆CAN总线数据为基础,对CAN总线数据质量管理中存在的问题进行了深入的分析和研究,提出将元数据应用于CAN总线数据质量管理应用中;结合数据的业务逻辑,设计并构建了 CAN总线数据的元数据模型,设计了一套数据质量管理的约束规则,并设计了一个基于元数据的数据质量评价模型。通过将元数据管理与数据质量管理技术有效结合,旨在能够通过系统,打破业务人员与数据管理之间的技术壁垒,让业务人员参与进数据质量管理的过程,提高数据质量管理的效率。该系统主要实现了数据质量规则管理、数据质量问题处理和数据质量分析三个方面的功能。数据质量规则管理可以让系统用户自定义数据的质约束量规则以满足数据管理的需要。数据处理功能是根据定义的数据质量规则,完成对数据的清洗,为公交车辆健康状况的分析预测提供了数据支持。数据质量分析功能提供了单表数据分析、单指标趋势分析、数据质量问题定位等信息,方便用户快速找到出现问题的指标,为数据管理人员制定数据采集策略打下了基础。