不确定性时间序列相似性匹配过程中的关键问题研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:lowner
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列问题作为数据挖掘中的一类重要问题,其重要性表现在现实世界中大量数据的采集与时间相关,数据具有时间上的关联性。时间序列是指按时间顺序排列的一组有序序列。时间序列相似性问题是时间序列挖掘中的一个重要而基础的问题,为其他的挖掘手段提供必要的技术支持和手段,也经常作为其他挖掘问题的一个子程序,目前关于时间序列的相似性匹配问题的研究已相当成熟。但是,随着信息技术的发展和现实应用需求的不断扩大,在无线传感器网络、无线射频识别(RFID)网络、移动对象跟踪、气象雷达网络和隐私保护等应用中逐渐涌现出一类特殊的数据,即不确定性数据,并且这些不确定性数据也是按照时间顺序排列的一组序列,故形成了不确定性时间序列数据。   由于现实世界中传感器采集到的数据往往是不确定的,加之现今流行的时间序列相似性匹配方法均是建立在确定性数据基础之上的,而且都没有考虑数据的不确定性,因此,现有的时间序列的相似性匹配方法不适用于这些领域。目前,关于不确定性时间序列的研究才刚刚起步,有关不确定性时间序列的相似性匹配问题还未见有效的解决方法。但在众多学者的努力之下,也出现了一些优秀的不确定性时间序列的相似性查询方法,每种方法都是在具体应用的背景下提出来,并没有一个公认的高效的匹配方法。针对此问题,将不确定性时间序列做预处理,把它分为横向时间维和纵向概率维,首先把给定的不确定时间序列用HAAR小波变换进行压缩变换,在此基础上,对得到的不确定性时间序列概率维作纵向处理,提出一种选代表方法,即采用概率最大法、均值法等选出一条确定的时间序列。通过这两种预处理后,对得到的确定性时间序列进行降维和索引,根据查询序列和数据库中的时间序列中的各自的不确定性进行组合,分别提出对应组合的相似性匹配算法。   最后,对直接执行选代表和经过小波压缩后再执行选代表两种方式进行了相关的实验,通过实验证明两种处理算法的可用性,得出两种结果的查全率和查准率,并对不同的数据量的查询效率进行了对比,实验结果表明,后一种处理方式效率较高。
其他文献
当前,大部分面向终端用户的软件采用的是图形用户界面(Graphic User Interface, GUI)技术。随着软件工程体系的不断规范和标准化,人们对软件质量的要求也越来越高。软件测试
肿瘤细胞图像作为一种常用的医学图像和自然图像,具有细胞结构复杂、图像冗余度高和图像高阶统计特性服从非高斯分布的特点。不少研究学者通过提取图像的几何特征来实现肿瘤
无线传感器网络(Wireless Sensor Networks,WSNs)主要由大量微型传感器节点构成,具备感知、采集并传输信息的功能。由于节点自身携带电池能量有限,因此,实现节点能耗均衡、延长网络
麦长管蚜是我国大多数麦区的主要害虫,对小麦的危害严重。准确预测麦长管蚜的发生量,是进行正确防治决策和减少农药用量的前提。目前麦蚜的预测多为发生级别而非发生量的预测
随着云计算的迅速发展,越来越多的数据被存放在云服务器中。云存储作为一种新型的存储服务,所具有的高可扩展性、高可靠性、价格低廉和可随时随地接入访问的特点,为海量数据
随着网络的迅速发展,计算能力与存储能力的不断提高,数据集的规模也有了飞速的增长。为了从大量数据中获取有价值的信息,需要对采集到的数据进行数据挖掘。而特征选择又是数据挖
随着人机交互的发展,形象、生动、直观的手势动作被当作人机自然的交流手段,使用户摆脱了键盘、鼠标等传统输入方式的束缚,在人机交互领域中具有不可估量的意义。从手势的输
时至今日,大数据(BigData)时代已经来临,尤其在电信、金融、互联网行业,数据量的增长已达TB甚至PB级。如何对大数据进行统计分析是我们面临的巨大挑战。云计算的出现和发展,
数字图像处理技术从二十世纪五十年代开始发展到现在,已经在人类生产生活的各个领域取得了广泛的应用。图像分割作为数字图像处理的关键技术之一,不断吸引着众多学者投入到相
随着煤炭开采量增加和开采层位愈来愈深,煤矿井下突水事件发生概率增大,地下水害已成为威胁煤矿安全生产的主要因素。井下明渠流量监测作为煤矿的常规任务为地下水害预警分析提供了重要的基础资料和历史参考依据。但传统的堰式和槽式流量计在井下明渠底部淤泥沉积的情况下测得的流量值与实际值存在严重偏差。为了精确实时测量井下明渠流量,研发精度更高、实时性更强、适合井下环境的明渠流量测量仪具有重要意义。文章研究了各类传