论文部分内容阅读
近年来,射频识别(Radio Frequency Identification, RFID)技术快速发展,阅读器与标签成本不断下降,标签识别的准确率不断提高。随着RFID技术的发展,生产商、分销商、零售商能够对供应链中的单个物品的移动进行跟踪。大型零售商如Wal-mart、Target和Albertsons已经开始在它们的仓库和物流中心部署RFID系统,并要求供应商在商品的小包装上粘贴RFID标签。RFID标签价格进一步下降,人们可以在单个商品上粘贴标签,跟踪供应链中单个物品的移动轨迹,如何管理和组织RFID系统收集的海量数据将成为研究利用RFID技术管理供应链的重点。这些海量数据存储在数据库或者数据仓库中,面对这种“数据爆炸”的现实,如何从海量数据中提取有价值的信息已显得尤为重要。数据挖掘技术的出现和发展为人们解决了这一难题,通过数据挖掘技术及其分析工具可以从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取潜在有用的信息和知识。RFID技术用来跟踪供应链中的移动物品,RFID数据中最重要的部分就是物品的移动数据,又称路径数据或者痕迹数据,RFID数据挖掘主要工作就是路径数据挖掘。我们对路径数据挖掘技术作了深入的研究,挖掘出现频率较高的路径,为用户了解物品的移动规律和趋势,优化供应链,发现异常移动等提供有用的信息。在研究现有RFID数据挖掘方法的基础上,本文主要在单机环境下RFID频繁路径挖掘、RFID多维频繁路径挖掘、分布环境下的RFID频繁路径挖掘等几方面做了深入的研究。主要创新点如下:1)基于传统的频繁模式挖掘和序列模式挖掘方法不能有效解决RFID频繁路径挖掘的问题,本文在充分研究RFID路径数据特点的情况下,将RFID路径数据分成若干序列数据,在现有的频繁模式和序列模式挖掘方法基础上,提出了面向RFID的高效频繁路径挖掘算法。2)以本文的RFID频繁路径挖掘算法为基础,结合多维序列模式挖掘思想,提出两类RFID多维路径挖掘算法。一类是将多维数据与路径数据合并整体挖掘;另一类是分别挖掘多维数据和路径数据。这两??法适用于不同的数据集,可以有效提高RFID多维路径挖掘的性能。3)提出了一种分布环境下的RFID频繁路径挖掘算法。因为供应链是分布的,所以RFID系统也是分布的。若将所有的数据集中到单个站点再用单机环境下的算法挖掘,将会造成大量数据传输和站点资源浪费。本文利用各个站点挖掘频繁路径,再将结果存储在路径语法树中,在站点之间传输路径语法树来合并全局频繁路径。这样,不仅可以减少网络数据传输量,也可以充分利用所有站点的计算能力,提高全局的挖掘速度。4)RFID系统不断收集移动物品的数据,需要先对数据库更新后,再挖掘用户需要的准确信息。为了解决这一问题,本文提出了更新挖掘算法。由于不断加入数据,会造成存储空间消耗过大,本文研究利用路径编码的方法,来压缩路径数据。