论文部分内容阅读
异构时空轨迹大数据的动态语义融合、广域网分布式数据存储环境下基于全量时空轨迹大数据和增量时空轨迹大数据的快速挖掘计算等是大数据挖掘分析的关键科学问题。本论文结合公共安全领域对群体行为模式挖掘分析的典型应用需求,开展基于时空轨迹大数据的群体行为模式挖掘与分析等关键技术研究,创新性工作主要体现在:(1)局域网集中数据存储环境的异构大数据语义融合。基于局域网集中存储的异构时空轨迹大数据,考虑公共语义参考模型难以预先设定的典型问题,提出基于MapReduce和ACO (Ant Colony Optimization)算法的并行化异构大数据语义聚类融合方法PACO (Parallel Ant Colony Optimization),通过MapReduce实现聚类运算关键步骤的并行化执行,通过聚类运算过程自适应地生成聚类中心,实现公共语义参考模型的自动生成和聚类运算的高速执行。(2)广域网分布式数据存储环境的异构大数据语义融合。基于广域网分布式存储的异构时空轨迹大数据,面向数据源端节点动态变化典型问题和群体行为模式挖掘典型应用,提出基于MapReduce的广域网分布式并行计算框架DPF (Distributed & Parallel Frame);为解决广域网分布式数据存储环境下面向特定应用需求的异构时空轨迹数据元动态语义融合问题,基于DPF框架,提出改进的kmeans算法DPKM (Distributed & Parallel kmeans),实现聚类运算的广域网分布式并行执行,通过分布计算避免移动时空轨迹大数据,大大降低运算总时间,提高运算效率。(3)基于时空轨迹大数据的群体行为模式挖掘。面向广域网分布式数据存储环境,考虑广域网分布式数据存储环境下基于全量时空轨迹大数据的群体行为模式挖掘问题,基于时空轨迹大数据总量巨大、分布式存储、移动成本高等典型特征,提出基于DPF框架的改进ACO算法DPACO (Distributed & Parallel Ant Colony Optimization),实现特征群体及其行为模式的自适应发现,通过分布计算避免移动时空轨迹大数据,大大缩减运算总时间;基于全量时空轨迹大数据的聚类运算,避免通过数据抽样或降维来降低数据规模对聚类结果产生影响,保持聚类准确性。(4)基于增量时空轨迹大数据的群体行为模式挖掘。面向广域网分布式数据存储环境下时空轨迹数据总量和一定周期内增量都是大数据的新特征,针对广域网分布式数据存储环境下基于增量时空轨迹大数据的群体行为模式挖掘问题,提出基于DPF框架的改进ACO算法DPIACO (Distributed & Parallel & Incremental Ant Colony Optimization),将聚类运算过程分为历史全量阶段和若干周期增量阶段进行分段持续执行,通过每个周期的增量聚类运算持续修正已有聚类结果,采用MapReduce实现每个阶段聚类运算的广域网分布式并行执行,避免广域网环境下时空轨迹大数据的重复聚类运算和拷贝迁移,在保持聚类结果准确性的同时提升运算效率。