【摘 要】
:
大数据与移动通信领域的发展促进了智慧交通的进步,越来越多的学者加入了对轨迹数据挖掘的研究工作中。移动硬件设施的升级为轨迹数据挖掘工作提供了大量的时空轨迹数据,但对于这些数据的质量分析往往被忽略,匆忙投入到具体实验研究中,带来的结果往往是不可靠的。数据需要经过科学的分析与评估,针对性的数据清洗,将数据完好的假象进行剥离,才会使后续的研究更有意义。本文分析了轨迹数据质量存在的问题,主要分为三类,即重复
论文部分内容阅读
大数据与移动通信领域的发展促进了智慧交通的进步,越来越多的学者加入了对轨迹数据挖掘的研究工作中。移动硬件设施的升级为轨迹数据挖掘工作提供了大量的时空轨迹数据,但对于这些数据的质量分析往往被忽略,匆忙投入到具体实验研究中,带来的结果往往是不可靠的。数据需要经过科学的分析与评估,针对性的数据清洗,将数据完好的假象进行剥离,才会使后续的研究更有意义。本文分析了轨迹数据质量存在的问题,主要分为三类,即重复数据、噪音数据及缺失数据问题。针对每种问题建立特定的模型与算法进行数据清洗或修复,解决目前车辆轨迹数据集的质量问题,并建立一套车辆轨迹数据集通用的质量评估模型(Vehicle trajectory Data Evaluation Model,简称VDEM)。本文的主要研究工作如下:(1)针对现有的近邻排序算法(SNM)对重复数据检测效率低的问题,提出了基于SNMW的重复数据清洗模型,即将重复数据划分等级,结合提取的时空轨迹特征与数据等级动态调整窗口大小,通过加权相似性度量,解决SNM算法中窗口大小固定不变的缺点,提高了重复数据检测效率。(2)针对目前车辆轨迹数据集噪音清洗方面研究的欠缺,提出了基于双滤波联合算法(Kalman filter-Savitzky-Golay,简称K-S-G)的噪音数据清洗模型。融合光谱图像学中卡尔曼滤波算法和Savitzky-Golay平滑滤波算法,对原始车辆轨迹进行拟合,拟合后的轨迹可以将潜藏在数据集中难以发现的轨迹噪音毛刺点筛除出去,通过对比实验验证了K-S-G算法的拟合效果最佳。(3)针对在路网未知情况下车辆轨迹缺失数据的补全难题,提出了基于S-G平滑滤波算法的道路插值数据补全模型。该模型将Savitzky-Golay平滑滤波算法拟合出的车辆轨迹模拟成道路,结合运动学规律建立数学模型后再做数据调整,提高了数据的补全精度。(4)为了全面评估车辆轨迹数据的准确性、完整性等指标,形成有效的轨迹数据质量评估体系,建立了一套车辆轨迹数据集通用的质量评估模型VDEM,针对不同轨迹数据规则设定评估指标,将清洗前后的数据分别进行评估,验证了数据清洗模型的有效性。
其他文献
物联网(Internet of Things,IoT)是日常物理对象或事物的网络,物联网设备之间的数据获取和传输是物联网通信和网络技术的基本前提。在物联网中由于网络本身以及数据的特点,针对物联网的路由协议研究尤为重要。传统的路由协议进行路径选择时一般只考虑路由度量,鲜有考虑过数据包属性(例如:大小、编码等)。针对上述问题,本论文提出了一种路由度量和数据包属性相结合的物联网路由选择策略,并设计与实现
随着科技的不断发展和人们对电商的认可度日益升高,网上购物已逐渐成为生活中不可或缺的一部分。淘宝、京东等平台深耕C2C领域,自身壮大的同时也改变了传统商业营销模式,推动国内电商业务持续蓬勃发展。行业的进步带来了极大的利润和便利,但其面临的挑战也日益严峻。第一,“数据过载”问题。电商业务的蓬勃使得相关用户及商品数据呈爆发性增长,用户越来越难以从繁杂的数据中及时、精确地找到所需信息。第二,“冷启动”问题
随着互联网技术的发展,Web服务的数量飞速增长,各种类型的服务推荐系统层出不穷。尽管各大服务推荐系统都展现了高效的数据处理、服务推荐等性能,但现有的服务推荐系统大都基于中心化平台开发,功能与数据集中于中心服务器,这种过于中心化的权限存在着诸多问题,例如数据被篡改、数据泄露等。针对上述问题,本文利用区块链技术在去中心化、数据不可篡改等方面的优势,结合智能合约技术,开发了一种基于区块链智能合约技术的服
为解决时间序列方法对弹性时机点的预测中步长固定、考虑指标单一、预测结果不包含临界点等问题,为弹性策略提供更充足的准备时间,本文考虑访问量和特殊日期对弹性时间点(临界点)的影响,提出临界点预测与实时监测结合的资源预警模型。该模型以历史匹配数据库作为核心,使用长周期的历史数据训练临界点预测模型,并构建历史匹配数据库。将数据中心视为黑盒,通过黑盒监控指标实时监测来为预测模型提供输入数据和完成历史匹配数据
区块链技术和物联网访问控制结合,解决单点故障问题并实现去中心化的访问控制是当前物联网访问控制的研究趋势。本文设计并实现了一种基于区块链的物联网访问控制系统,使用区块链中的智能合约技术进行访问控制决策,访问控制权限仅在用户与区块链之间流动,以保证访问控制的可靠性。本文针对基于区块链的访问控制中因访问控制策略粒度过粗,出现越权访问、过度授权等问题,设计了一个访问控制策略模型FACPM(Fabric A
蛋白质组学研究在生物学研究中始终占据着重要地位,蛋白质复合物的研究也在不断深入且已取得了突破性进展。蛋白质复合物由多个蛋白质结合形成,是探索复杂生命过程的基础。蛋白质相互作用PPI网络可看作是由多个蛋白质复合物构成,但由于PPI数据存在噪声等问题,导致识别准确率不高。因此,识别蛋白质复合物并理解其功能特性成为生物学中的热点问题。构建PPI加权网络并设计蛋白质复合物识别算法可用以解决这一问题。本文主
移动通信技术、全球定位技术和物联网技术的蓬勃发展,催生了海量的交通数据。通过采集道路运输过程中“人-车-环境”的状态数据,利用机器智能对这些数据进行深度挖掘和融合分析,有利于发现车辆隐含的交通行为特征,特别是检测驾驶人可能存在的交通违法行为,对于防范和减少交通事故的发生具有非常重要的意义。为此,本文综合考虑驾驶人、车辆和环境三方面的交通数据,利用仿生神经网络技术对轨迹数据进行异常检测,利用机器视觉
随着信息技术的快速发展,数据存储的需求也在快速增长。虽然云存储技术的出现解决了数据存储需求快速增长的问题,但与此同时云存储技术用户与数据物理分离的特点也带来了诸多的数据安全问题。在数据存储安全方面,云存储服务器的硬件故障、系统的软件问题以及人为操作不当等问题威胁着数据完整性安全。在数据使用安全方面,用户在上传数据后就失去了数据的物理访问控制权,转由云存储服务提供商掌握,数据在使用过程中存在非法拷贝
在计算机视觉任务中,基于图像的人体行为识别研究是一项非常具有挑战性的工作。由于其缺少时域信息以及极易受到人体姿态、场景和光照等因素的干扰,因此如何有效地提取图像中的空间线索信息来表征人体行为是目前基于图像人体行为识别研究所重点关注的问题。近些年来,随着深度学习的快速发展,以卷积神经网络为代表的深度学习模型在计算机视觉领域中取得了巨大的成功,进一步促进了图像行为识别研究的发展。本文基于深度学习方法对
频繁项集挖掘已经成为数据挖掘领域的一个热门研究,被广泛应用于商业决策、经济学、医疗学和生物信息学等领域。人们在做决策时可以通过挖掘频繁项集来获取许多有价值的信息,但在频繁项集挖掘和发布的过程中难免会带来隐私泄漏的风险。因此,如何在不泄漏隐私的前提下高效地进行频繁项集挖掘是目前的一个研究热点。与此同时,考虑到目前无论线上还是线下的实时数据也正在呈指数级别的增长的情况,本文还研究了如何在动态场景下隐私