基于哈希技术的时间序列近似查询研究

来源 :宁波大学 | 被引量 : 0次 | 上传用户:diliwer3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的快速发展,随时随刻产生着不计其数的信息。在数据挖掘、机器学习、信息检索等领域,如何从庞大的信息中,挖掘有用的信息显得尤为重要。这些信息包含多种数据,其中有一种是与时间有关的数据,即时间序列。时间序列广泛存在于各个领域中,如金融、地理、医学和气象等。目前时间序列数据研究主要集中在时间序列的相似性查询、时间序列的聚类/分类分析、时间序列的可视化研究、时间序列的分段、时间序列的趋势预测和异常检测等。时间序列相似性问题是时间序列挖掘中一个基础问题,自被提出以来一直备受关注。所以选择时间序列相似性查询作为研究很有意义。由于时序数据的数值性和连续性,一般考虑的是时间序列的整体而不是单个数值。所以与传统数据库的相似性查询不同,时间序列数据的相似性查询一般以近似的方式进行。由于时间序列的高维性,很难直接对它进行处理。而哈希技术是一种很常用的压缩映射技术,它可以通过散列算法把任意长度的输入转换成固定长度的输出。该输出值的空间通常远小于输入的空间,因此可以使用哈希技术来处理时间序列。本文的主要研究内容包括以下几个方面:首先提出一种利用LSH(Locality Sensitive Hashing,局部敏感哈希)算法处理时间子序列匹配问题的方法LSHSM。LSH能够将距离近的对象以很高的概率哈希到同一个桶中,通过这样的处理,可以过滤很多不相似的对象,避免不必要的比较,从而大大提高检索速度。不同于FRM和DualMatch方法,本文方法不需要对时间序列做DFT、DWT等特征变换,而是直接把序列当成高维数据点,利用LSH能处理高维数据的特性来查找时间子序列。实验采用三种不同的时间序列数据集,验证了算法的有效性。然后通过引入关联删除的概念,来处理两个属性的时间序列。若要根据时间序列的一个属性删除另一个属性,为了保持时间序列数据的一致性,需要存储两个属性的关联信息。布鲁姆过滤器是一种很强大的表示数据概要的工具。利用它们来分别表示时间序列数据两个属性的概要,实现对过期数据的删除操作。解决了删除多属性数据不一致的问题,节省空间开销,实验表明在可控错误率范围内,时间序列的删除操作可以有很高的精度。
其他文献
随着人们对高速率数据业务的需求呈爆发式增长,无线通信的频谱资源稀缺日趋严重。而目前的频谱分配策略依旧采用授权的静态分配方式,许多已被授权分配的频段经常处于空闲状态
计算机辅助排样,又称为CAN(Computer Aided Nesting),是广泛应用的计算机辅助技术之一。CAN广泛的应用于电气机械制造业、服装制造业、家具制造业、交通运输设备制造业等行业
随着计算机及网络技术的发展,特别是宽带时代的到来,计算机网络作为信息社会的基础设施已经渗透到了社会的各个领域,网络与传统产业日见紧密的结合,使得普通用户对网络的依赖
随着Internet和Web的迅猛发展,数据库技术也开始与Web产生了紧密的联系,一种新兴的技术-Web数据库技术出现了,并且开始在数据库的应用中发挥着越来越重要的作用,它所使用的B/S系
肺癌是当今世界各国常见的恶性肿瘤,已成为绝大多数国家癌症死亡的主要原因。肺癌早期多无症状或症状轻微,不易发现,待到发现时往往已有转移。因此,提高早期肺癌的检出率是提
继科学计算和生命计算之后,面向网络化社会系统的社会计算已然成为学术界的研究热点和前沿课题。社会网络结构分析是社会计算的核心问题之一,深入理解社会网络的结构特性有助
虚拟切割广泛应用于CAD/CAM、生物医学仿真、计算机图形学和虚拟现实等领域中。对于三角面模型的虚拟切割实现简单,效果逼真,实时性较强,应用方便。本文分别对三维面模型的切
由于工程项目管理复杂性高、时间跨度长、空间跨度大、涉及的人员和组织庞杂等特点,工程项目过程和目标管理难度大,利用现代信息技术开发大型工程项目集成管理系统对于提高工
随着计算机技术的发展,针对高校公共课,各地高校研制出了一些考试系统:单机考试系统;C/S模式的网络考试系统;基于网页的B/S模式考试系统。这些考试系统使用后,教师的工作量降低了很
服装CAD(GCAD),即服装计算机辅助设计,其将CAD领域的理论和技术应用到服装设计、生产、经营管理等各个环节,从而极大地改善了服装产品的生产效率和质量。随着服装业的发展和消费