论文部分内容阅读
近年来,随着射频识别(Radio Frequency Identification, RFID)技术的飞速发展,标签成本的不断降低,其被逐渐应用于诸如供应链管理、物品追踪、医疗、物流等方面。大型零售商如Wal-mart、Target和Albertsons已经开始在其物流中心和仓库部署RFID系统,并要求供应商在商品的小包装上粘贴RFID标签。RFID的最大问题之一是如何处理海量数据,即使是适度的RFID开发,每天都将会产生TB级的数据,因为每个物品都贴标签且会不停地向阅读器发送数据;同时由于环境因素的干扰以及射频信号的不稳定等原因,采集到的RFID数据通常是不可靠的且带有噪声的,这样的数据是无法提供给上层企业作为更高级的应用的。以上这些原因都大大的制约了RFID技术的推广和应用,因此,如何有效的、高效的清洗RFID数据成为了一个亟待研究的重要课题。传统的数据清洗技术无法完全适用于RFID数据流的清洗要求。现有的技术主要考虑在数据层面的基于历史读数的窗口平滑方法和时空关联策略,这些方法主要是在单阅读器的应用场景下表现良好,但是不适用于多逻辑区域的数据清洗。本文在研究了国内外RFID数据清洗技术的基础上,主要对多读、漏读和冗余读的清洗方面做了深入的研究。本文的主要创新点如下:1)鉴于传统的数据清洗算法主要研究数据漏读错误,而对于多读错误研究过少,本文提出了HTB算法,通过设置一个噪声阈值,对于一段时间内计数频率小于噪声阈值的数据进行清洗;同时采用哈希表结构存储计数数据,减少计数操作的时空复杂度,从而提高清洗效率。2)鉴于传统的RFID数据清洗算法都是基于数据层的时空关联对数据进行填补,不适合基于多逻辑区域的带有轨迹信息的RFID应用场景。本文在充分研究RFID轨迹数据特点的情况下,提出了一种基于运动时效性的轨迹数据填补算法,根据历史数据维护一棵轨迹事件树,用以预测到来的数据,对数据清洗进行指导;同时考虑到时间因素对于运动规则的影响,引入时效因子,重新维护轨迹事件树,提高了轨迹事件树的预测精度,提高填补算法的准确性。3)阅读器采集到的原始数据量十分庞大并且存在大量的冗余,不利于后续的清洗工作,本文提出一种冗余删除算法,通过设置一个时间容忍度阈值来清洗数据冗余,精简数据,避免后续的数据清洗中填补冗余的数据;同时考虑到不同RFID应用所存在的约束,提出一种基于约束的数据清洗算法,根据自学约束和用户指定约束来指导数据清洗,提高清洗的准确性。