论文部分内容阅读
近年来,随着互联网的快速发展,随时随刻产生着不计其数的信息。在数据挖掘、机器学习、信息检索等领域,如何从庞大的信息中,挖掘有用的信息显得尤为重要。这些信息包含多种数据,其中有一种是与时间有关的数据,即时间序列。时间序列广泛存在于各个领域中,如金融、地理、医学和气象等。目前时间序列数据研究主要集中在时间序列的相似性查询、时间序列的聚类/分类分析、时间序列的可视化研究、时间序列的分段、时间序列的趋势预测和异常检测等。时间序列相似性问题是时间序列挖掘中一个基础问题,自被提出以来一直备受关注。所以选择时间序列相似性查询作为研究很有意义。由于时序数据的数值性和连续性,一般考虑的是时间序列的整体而不是单个数值。所以与传统数据库的相似性查询不同,时间序列数据的相似性查询一般以近似的方式进行。由于时间序列的高维性,很难直接对它进行处理。而哈希技术是一种很常用的压缩映射技术,它可以通过散列算法把任意长度的输入转换成固定长度的输出。该输出值的空间通常远小于输入的空间,因此可以使用哈希技术来处理时间序列。本文的主要研究内容包括以下几个方面:首先提出一种利用LSH(Locality Sensitive Hashing,局部敏感哈希)算法处理时间子序列匹配问题的方法LSHSM。LSH能够将距离近的对象以很高的概率哈希到同一个桶中,通过这样的处理,可以过滤很多不相似的对象,避免不必要的比较,从而大大提高检索速度。不同于FRM和DualMatch方法,本文方法不需要对时间序列做DFT、DWT等特征变换,而是直接把序列当成高维数据点,利用LSH能处理高维数据的特性来查找时间子序列。实验采用三种不同的时间序列数据集,验证了算法的有效性。然后通过引入关联删除的概念,来处理两个属性的时间序列。若要根据时间序列的一个属性删除另一个属性,为了保持时间序列数据的一致性,需要存储两个属性的关联信息。布鲁姆过滤器是一种很强大的表示数据概要的工具。利用它们来分别表示时间序列数据两个属性的概要,实现对过期数据的删除操作。解决了删除多属性数据不一致的问题,节省空间开销,实验表明在可控错误率范围内,时间序列的删除操作可以有很高的精度。