论文部分内容阅读
数据挖掘是从海量数据中发现有价值的规律和信息的一门学科,结合了统计学、数据库、机器学习、优化理论等各个领域的算法和知识。近年来,随着信息化技术的高速发展,大量原始数据被采集,数据挖掘及其在各类交叉学科的应用研究已经越来越受到研究界以及企业界的重视。其中,空间数据与时间序列数据均为常见的数据类型,广泛存在于地理信息系统,传感器网络,股票市场,和气象领域等等。针对空间数据、时间序列数据的基础算法研究,以及与其它学科领域相结合的应用研究一直以来都是数据挖掘的热点问题。气象领域是数据挖掘技术应用研究的一个新兴的领域,而气象事件挖掘是其中一个重点研究方向。气象事件的挖掘研究可以为人们生产生活的各种行为决策提供及时且坚实的数据支持,具有极其重要的现实意义。因此,本文以气象领域为研究背景,以常见的气象数据如时间序列、空间数据、时空数据等为研究的数据对象,就气象事件挖掘的相关问题展开研究。具体来说,本文主要专注于空间数据聚类分析、时间序列符号化表示等基础算法研究,并针对气象领域特定事件挖掘等具体需求做算法和框架的设计。本文主要的研究成果如下:(1)提出了一个空间数据聚类分析算法Yupc。受自然界粒子在势能场下相互吸引的动态过程的启发,本文提出一种全新的基于汤川势的动态聚类算法Yupc。该算法既不需要事先假设数据初始分布,也不需要用户指定簇的个数,可以检测出不同形状、大小、密度、数量、以及分布的簇,反映出原始数据集本质内在结构特点。同时,为了解决聚类算法的参数设置问题,本文还提出一个自动搜寻最佳参数的框架,以做到自动聚类分析。在人造数据集和真实数据集上的实验表明,Yupc的聚类效果优于现有算法,尤其擅于处理同时包含了多种簇的数据集。(2)设计了一个时间序列符号化表示算法rSAX。时间序列符号化表示是处理高维时间序列的一种常用方法,可以在保留时间序列特征的前提下大大降低数据的维度,以便后续的分析挖掘。SAX是一个经典的符号化表示算法,被广泛用于时间序列分析的各个领域。但是SAX总是使用确定的分割点来映射时间序列,这使得邻近分割点的相似对象难以被合适的表达出来,还会影响TLB下界的紧度。为了解决这个问题,本文提出了一种基于随机偏移的符号化表示算法rSAX。该算法通过随机偏移算法生成“软边界”而非传统算法的“硬边界”,使得越为相似的对象点将有越高的概率被映射成同一个符号,进而做到更好TLB界而无需加大表达粒度。同时,本文从理论证明了rSAX与经典算法SAX相比,可以做到更好的映射效果和更紧的TLB界。最后,在真实数据集上的实验验证了rSAX的有效性和效率。(3)为气象领域协同异常事件挖掘提出了一个挖掘框架。气象领域的温度序列是时间序列的一种。历史多维温度序列记录了多年来各地气温随时间变化的趋势和细节,同时隐含了很多重要的事件信息。其中,协同异常(co-anomaly)事件便是重要的气象现象之一,表现为相似异常模式同时刻发生在不同的温度序列上。这类协同异常事件在理解气象行业异常气象行为以及自然灾害方面扮演了非常重要的角色。然而,由于温度序列自身独特性质,自动挖掘气象领域协同异常事件是一个尚待解决的问题。为此,本文提出一个全新的算法框架Sevent来从多维温度序列中自动检测协同异常气象事件。具体的思想如下,首先把原始温度序列投影成符号式表达;然后,通过统计显著性检验从中检测协同异常模式;最后从协同异常模式中生成可覆盖不同子维度以及不同子序列的协同异常事件。在真实数据集上的实验结果清楚地验证了Sevent的有效性。(4)为气象领域高温热浪事件设计了一个基于时空聚类的挖掘算法。气象领域的事件挖掘面临着各种各样的气象场景和需求。高温热浪便是其中一类重要的事件。对时空温度数据进行自动高温事件挖掘,可以帮助气象专家们对历史上各起高温热浪覆盖的时间和空间范围做界定,从而对高温热浪的起因及演化做进一步的研究。事件时空区域挖掘同时也是数据挖掘领域一类重要的问题,在各种自然、社会学科中有着广泛的应用。传统的事件时空区域挖掘算法多基于时空聚类分析,当事件覆盖的区域不规则,且随着时间推移而呈现出各种演变时难以准确对其进行捕获和挖掘;同时各项参数的合理设置也是众多已有算法所面临的问题。为了准确捕获事件时空区域,本文提出了一种新的自动优化参数的事件时空区域挖掘算法Gtem。与最小描述长度原理相结合,Gtem能自动优化各项参数设置,依据数据对象间时空相关性捕获事件随时间推移的演化趋势,挖掘起始、经过及终止过程的各种不规则形状的时空覆盖区域,同时找出孤立点。通过采用真实时空温度数据集进行高温热浪事件挖掘,验证了算法的可行性和有效性。