基于哈希技术的时间序列近似查询研究

来源 :宁波大学 | 被引量 : 0次 | 上传用户：diliwer3

【摘要】

：

近年来,随着互联网的快速发展,随时随刻产生着不计其数的信息。在数据挖掘、机器学习、信息检索等领域,如何从庞大的信息中,挖掘有用的信息显得尤为重要。这些信息包含多种数

【作者】

：

刘根平

【机构】

：

宁波大学

【出处】

：

宁波大学

【发表日期】

：

2015年期

【关键词】

：

时间序列相似性查询局部敏感哈希关联删除布鲁姆过滤器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着互联网的快速发展,随时随刻产生着不计其数的信息。在数据挖掘、机器学习、信息检索等领域,如何从庞大的信息中,挖掘有用的信息显得尤为重要。这些信息包含多种数据,其中有一种是与时间有关的数据,即时间序列。时间序列广泛存在于各个领域中,如金融、地理、医学和气象等。目前时间序列数据研究主要集中在时间序列的相似性查询、时间序列的聚类/分类分析、时间序列的可视化研究、时间序列的分段、时间序列的趋势预测和异常检测等。时间序列相似性问题是时间序列挖掘中一个基础问题,自被提出以来一直备受关注。所以选择时间序列相似性查询作为研究很有意义。由于时序数据的数值性和连续性,一般考虑的是时间序列的整体而不是单个数值。所以与传统数据库的相似性查询不同,时间序列数据的相似性查询一般以近似的方式进行。由于时间序列的高维性,很难直接对它进行处理。而哈希技术是一种很常用的压缩映射技术,它可以通过散列算法把任意长度的输入转换成固定长度的输出。该输出值的空间通常远小于输入的空间,因此可以使用哈希技术来处理时间序列。本文的主要研究内容包括以下几个方面:首先提出一种利用LSH(Locality Sensitive Hashing,局部敏感哈希)算法处理时间子序列匹配问题的方法LSHSM。LSH能够将距离近的对象以很高的概率哈希到同一个桶中,通过这样的处理,可以过滤很多不相似的对象,避免不必要的比较,从而大大提高检索速度。不同于FRM和DualMatch方法,本文方法不需要对时间序列做DFT、DWT等特征变换,而是直接把序列当成高维数据点,利用LSH能处理高维数据的特性来查找时间子序列。实验采用三种不同的时间序列数据集,验证了算法的有效性。然后通过引入关联删除的概念,来处理两个属性的时间序列。若要根据时间序列的一个属性删除另一个属性,为了保持时间序列数据的一致性,需要存储两个属性的关联信息。布鲁姆过滤器是一种很强大的表示数据概要的工具。利用它们来分别表示时间序列数据两个属性的概要,实现对过期数据的删除操作。解决了删除多属性数据不一致的问题,节省空间开销,实验表明在可控错误率范围内,时间序列的删除操作可以有很高的精度。

其他文献

基于信任度的认知无线电联合频谱感知研究

随着人们对高速率数据业务的需求呈爆发式增长,无线通信的频谱资源稀缺日趋严重。而目前的频谱分配策略依旧采用授权的静态分配方式,许多已被授权分配的频段经常处于空闲状态

学位

信任度联合频谱感知信噪比自适应OFDM

生成矩形毛坯最优四块排样方式的精确算法

计算机辅助排样,又称为CAN(Computer Aided Nesting),是广泛应用的计算机辅助技术之一。CAN广泛的应用于电气机械制造业、服装制造业、家具制造业、交通运输设备制造业等行业

学位

矩形毛坯排样两维切割切割下料

基于SNMP的校园网服务器监控系统的设计与实现

随着计算机及网络技术的发展,特别是宽带时代的到来,计算机网络作为信息社会的基础设施已经渗透到了社会的各个领域,网络与传统产业日见紧密的结合,使得普通用户对网络的依赖

学位

SNMP网络管理服务器监控MIB

基于B/S结构的学生成绩管理系统的开发

随着Internet和Web的迅猛发展，数据库技术也开始与Web产生了紧密的联系，一种新兴的技术-Web数据库技术出现了，并且开始在数据库的应用中发挥着越来越重要的作用，它所使用的B/S系

学位

B/S结构成绩管理信息管理系统

改进的遗传-神经网络算法在肺癌诊断中的应用

肺癌是当今世界各国常见的恶性肿瘤,已成为绝大多数国家癌症死亡的主要原因。肺癌早期多无症状或症状轻微,不易发现,待到发现时往往已有转移。因此,提高早期肺癌的检出率是提

学位

BP神经网络遗传算法模拟退火算法肺癌

在线社会网络的结构化分析方法及应用研究

继科学计算和生命计算之后,面向网络化社会系统的社会计算已然成为学术界的研究热点和前沿课题。社会网络结构分析是社会计算的核心问题之一,深入理解社会网络的结构特性有助

学位

在线社会网络社区识别结构压缩校准策略蠕虫遏制

含内部孔洞的面模型虚拟切割仿真研究

虚拟切割广泛应用于CAD/CAM、生物医学仿真、计算机图形学和虚拟现实等领域中。对于三角面模型的虚拟切割实现简单,效果逼真,实时性较强,应用方便。本文分别对三维面模型的切

学位

虚拟切割顶点移动网格细分Delaunay三角化网格拼接

基于J2EE的工程项目集成管理系统研究与实现

由于工程项目管理复杂性高、时间跨度长、空间跨度大、涉及的人员和组织庞杂等特点,工程项目过程和目标管理难度大,利用现代信息技术开发大型工程项目集成管理系统对于提高工

学位

项目集成管理J2EEWebGIS项目决策支持工程建筑企业

VFP网络考试系统的设计与实现

随着计算机技术的发展，针对高校公共课，各地高校研制出了一些考试系统：单机考试系统；C/S模式的网络考试系统；基于网页的B/S模式考试系统。这些考试系统使用后，教师的工作量降低了很

学位

VFP网络考试系统高等院校

三维服装人台建模的研究与系统实现

服装CAD(GCAD)，即服装计算机辅助设计，其将CAD领域的理论和技术应用到服装设计、生产、经营管理等各个环节，从而极大地改善了服装产品的生产效率和质量。随着服装业的发展和消费

学位

多面体建模技术三维人体测量特征曲线三角网格平面三维人台仿真模型

基于哈希技术的时间序列近似查询研究

其他学术论文