论文部分内容阅读
车联网作为物联网的分支,专注于车载系统的互联互通和车载传感数据的实时采集和处理。由于车辆的特殊安全需求,系统需要对重要的车载传感数据做出硬实时或实时处理,否则将会带来致命的安全后果。因此,车联网领域在传统的以Hadoop为代表的海量分布式批处理数据的基础上,不仅对数据的海量吞吐能力有严格要求,而且对海量数据的高并发实时处理能力有严格要求,同时对数据处理的实时性、一致性和鲁棒性提出了特殊要求。同时,由于业务需求和处理场景的多样性,车联网系统对于实时计算和离线计算、结构化存储和非结构化存储,均有迫切的现实需求。然而现有的技术框架都是分散割裂的,不但增加了开发和部署难度,而且不能自动智能地整合利用存储和计算资源,降低了服务器资源使用效率。本文针对目前车联网领域的现状和存在的问题,在充分挖掘已有的基于Netty等非阻塞多线程并发处理技术的基础上,融合Hadoop、Spark和Storm等技术,实现海量高并发数据的实时处理和负载均衡,并在此基础之上提炼出一个较为通用的海量高并发数据一体化存储和计算的处理框架。本文完成的主要工作包括:(1)提出了车联网大数据一体化处理框架的整体设计思想和架构设计,构建了一个统一的大数据处理模型,实现了存储处理和计算处理的一体化智能处理。(2)实现了车联网大数据一体化存储框架,提出了广度优先和精度优先的智能数据采集模式和智能清洗、转换、存储算法,实现了对车联网结构化和非结构化数据的一体化混合存储和智能自适应优化;(3)实现了车联网大数据一体化计算框架,改进了现有的数据计算框架,动态适配和整合了实时计算与离线计算,实现了大数据混合计算引擎;优化了车联网大数据计算相关的调度机制,从资源调度和任务调度两个层面进行多粒度智能优化调度,大大提高了存储和计算资源一体化调度的资源利用率和运行速度。根据本文思路设计的车联网系统,已经在众多车联网项目中得到了应用,目前已稳定承载了千万级车辆的实时在线数据采集和实时监控预警,并具备动态追加车辆和服务器的动态伸缩能力。