海量时空轨迹相似度计算方法研究与实现

来源 :武汉邮电科学研究院 | 被引量 : 1次 | 上传用户:chenyi686
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时空轨迹(Trajectory)是移动对象的位置和时间的记录序列。作为一种重要的时空对象数据类型和信息源,时空轨迹的应用范围涵盖了人类行为、交通物流、应急疏散管理、动物习性和市场营销等诸多方面。通过对各种时空轨迹数据进行聚类分析,可以提取时空轨迹数据中的相似性与异常特征,并有助于发现其中有意义的模式。针对传统的LCSS算法在轨迹点比对时,出现时间阈值选取的敏感性问题,提出了LCSS+算法,在不同的时间阈值条件下,表现平稳,识别率高,针对时空轨迹数据的稀疏性,造成了大量无效的轨迹点比对,本文将网格算法应用于LCSS+,极大的减少了轨迹点比对的数量,提升了算法效率。并针对大数据量的问题,提出了分布式环境下的LCSS+算法,测试结果表明分布式LCSS+算法能够缩短比对的时间,提升大数据集情形下的实时性。同时由于轨迹数据分布的不均衡,当使用MapReduce来计算轨迹相似度时,轨迹数据从Map端不能均匀的分配到Reduce端,使得某些Reduce节点的负载严重,这些负载严重的Reduce节点上的计算任务耗费了较长的时间,而整个MapReduce任务要等待所有的reduce任务都执行完成才能结束,使得整体任务运行时间变长。本文针对上述问题,提出了调优方案。其一,对原始轨迹数据进行数据抽样,统计轨迹数据中key值分布频次,从而推算整个轨迹数据的数据分布情况。其二,针对默认的分区算法的不足,提出一种改进的分区算法来处理Map端输出的中间结果数据,通过在作业运行时间和Reduce端负载情况上与默认的哈希分区算法进行比较的实验,实验结果表明改进的分区算法能够在处理倾斜度大的轨迹数据表现优于默认的哈希分区算法。
其他文献
公路测量控制是公路施工的重要环节,做好公路施工测量工作是实现公路顺利施工的重要保证。施工测量是一项专业性的工作,要想做好这项工作就必须要做好准备工作。当前在人们对
在媒介融合的背景之下,网络舆论环境发生了新变化,微博等社交媒体依托其平台优势成为舆论发展的主要场地,在一些重大舆情事件发生后,如果我们的主流媒体不及时发声、引导舆论
对长江三角洲某典型废旧电子产品拆解场地周边基本农田保护区水稻土进行了采样及土壤基本理化性质和重金属污染特征研究。结果表明,该地区水稻土pH变化范围为3.8~4.4,平均为4.1,较我
本文主要分析选材和节能新技术两分面对于现代建筑工程中节能给排水的重要性.
英语教师在教学中应创造条件,采取可用的方法,激发学生对英语学习的强烈愿望。如在校园的英语学习中尽可能创设双语环境,课堂教学中运用多媒体手段、唱英文歌曲、设计游戏情
利用1949—2012年中国农业气象灾害资料,采用数值分析方法,计算干旱、洪涝、风雹和低温冷害等气象灾害的成灾率,并对各类气象灾害分级赋值;采用灰色关联分析法,计算各类气象
<正>记者从安徽省工商局获悉,该局于今年第一季度依法组织对省内市场上销售的儿童玩具进行了省级质量监测,结果表明,9种儿童玩具被判不合格,其中儿童玩具存在边缘、尖端和玩
学生生物核心素养的培养是高中生物教学的重要内容。本文介绍了生活化教学策略的应用,旨在培养学生的生命观念、理性思维、实验探究能力和利用生物学知识解决现实问题的能力,
衰减常数是微波传输线的重要特性参数。精确计算传输线的导体损耗衰减常数需要分析特定模式的电磁场并在导体表面积分。增量电感法将TEM或准TEM模导体损耗衰减常数的计算等效
元认知是对认知的认知,它包括元认知知识、元认知体验、元认知监控三个方面的内容。元认知知识为改进学习提供反馈信息;元认知体验对学习活动起着调节和促进作用;元认知监控