论文部分内容阅读
移动互联网、卫星定位、LBS等技术的迅速发展,推动了车联网行业的进步,但也为其带来了新的挑战。车联网云数据中心与综合服务平台汇聚了关于车辆位置、状态、速度、加速度、路网等非结构化的海量车联网数据,传统的数据分析技术已经无法满足当前规模的车联网数据处理的需求。因此,本文提出引进分布式计算技术和数据存储技术,构建云服务信息化平台,从而实现对车辆进行高效实时监控和调度管理。主要的贡献如下:1、针对传统关系型数据库无法承载海量数据的存储,突破了单表存储的上限,且数据的查询和写入性能呈现指数级别地下降的问题,同时考虑车载终端采集的数据海量、高速、非结构化等特点,本文基于HBase与Redis缓存数据库设计和实现了车联网数据的存储和查询优化系统。具体地,利用非关系型、高性能、可扩展的分布式数据库HBase做存储,内存数据库Redis做数据缓存。此外,为了提高存储,查询效率,节省存储空间,分别从RowKey设计,服务器预分区,Redis缓存策略,集群参数调整等方面进行优化。实验表明,HBase数据写入和查询性能都有所提升,满足了非结构化车联网大数据存储需求。2、针对传统车联网平台在处理海量数据时存在吞吐量小,实时性差的问题,本文设计了一种基于大数据流处理技术的实时分析系统。根据系统高并发接入以及实时性的需求,引入Storm实时计算系统进行数据的实时分析。利用Kafka消息队列的异步通信机制将各层之间解耦,采用HBase进行海量数据存储,满足车联网非结构化数据存储需求。进一步针对访问数据库开销大的问题,采用Redis缓存策略,提高查询效率。最后实验证明,该系统具有低延迟,高吞吐,可拓展性等特点,能够满足车辆网大数据流处理要求。3、在车联网海量数据处理方面,本文重点关注车辆轨迹数据挖掘问题。主要围绕车辆轨迹数据预处理、停留点提取、轨迹聚类和位置服务等问题展开研究。具体地,在停留点提取的问题上,综合考虑轨迹数据的时间,速度,空间等多维属性,提出停留点预选区,结合改进后的K-Means算法对停留点预选区进行聚类,获取更为精准最终的停留点。在位置服务问题上,利用GeoHash算法将经纬度编码成字符串,根据字符串匹配或Zset数据集排序,实现位置快速查询。实验结果表明,该方法能够真实有效地描述轨迹数据的分布情况,为车联网平台的车辆调度管理提供有效的解决方案。