气象领域事件挖掘相关问题的研究

被引量 : 7次 | 上传用户:liongliong574
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从海量数据中发现有价值的规律和信息的一门学科,结合了统计学、数据库、机器学习、优化理论等各个领域的算法和知识。近年来,随着信息化技术的高速发展,大量原始数据被采集,数据挖掘及其在各类交叉学科的应用研究已经越来越受到研究界以及企业界的重视。其中,空间数据与时间序列数据均为常见的数据类型,广泛存在于地理信息系统,传感器网络,股票市场,和气象领域等等。针对空间数据、时间序列数据的基础算法研究,以及与其它学科领域相结合的应用研究一直以来都是数据挖掘的热点问题。气象领域是数据挖掘技术应用研究的一个新兴的领域,而气象事件挖掘是其中一个重点研究方向。气象事件的挖掘研究可以为人们生产生活的各种行为决策提供及时且坚实的数据支持,具有极其重要的现实意义。因此,本文以气象领域为研究背景,以常见的气象数据如时间序列、空间数据、时空数据等为研究的数据对象,就气象事件挖掘的相关问题展开研究。具体来说,本文主要专注于空间数据聚类分析、时间序列符号化表示等基础算法研究,并针对气象领域特定事件挖掘等具体需求做算法和框架的设计。本文主要的研究成果如下:(1)提出了一个空间数据聚类分析算法Yupc。受自然界粒子在势能场下相互吸引的动态过程的启发,本文提出一种全新的基于汤川势的动态聚类算法Yupc。该算法既不需要事先假设数据初始分布,也不需要用户指定簇的个数,可以检测出不同形状、大小、密度、数量、以及分布的簇,反映出原始数据集本质内在结构特点。同时,为了解决聚类算法的参数设置问题,本文还提出一个自动搜寻最佳参数的框架,以做到自动聚类分析。在人造数据集和真实数据集上的实验表明,Yupc的聚类效果优于现有算法,尤其擅于处理同时包含了多种簇的数据集。(2)设计了一个时间序列符号化表示算法rSAX。时间序列符号化表示是处理高维时间序列的一种常用方法,可以在保留时间序列特征的前提下大大降低数据的维度,以便后续的分析挖掘。SAX是一个经典的符号化表示算法,被广泛用于时间序列分析的各个领域。但是SAX总是使用确定的分割点来映射时间序列,这使得邻近分割点的相似对象难以被合适的表达出来,还会影响TLB下界的紧度。为了解决这个问题,本文提出了一种基于随机偏移的符号化表示算法rSAX。该算法通过随机偏移算法生成“软边界”而非传统算法的“硬边界”,使得越为相似的对象点将有越高的概率被映射成同一个符号,进而做到更好TLB界而无需加大表达粒度。同时,本文从理论证明了rSAX与经典算法SAX相比,可以做到更好的映射效果和更紧的TLB界。最后,在真实数据集上的实验验证了rSAX的有效性和效率。(3)为气象领域协同异常事件挖掘提出了一个挖掘框架。气象领域的温度序列是时间序列的一种。历史多维温度序列记录了多年来各地气温随时间变化的趋势和细节,同时隐含了很多重要的事件信息。其中,协同异常(co-anomaly)事件便是重要的气象现象之一,表现为相似异常模式同时刻发生在不同的温度序列上。这类协同异常事件在理解气象行业异常气象行为以及自然灾害方面扮演了非常重要的角色。然而,由于温度序列自身独特性质,自动挖掘气象领域协同异常事件是一个尚待解决的问题。为此,本文提出一个全新的算法框架Sevent来从多维温度序列中自动检测协同异常气象事件。具体的思想如下,首先把原始温度序列投影成符号式表达;然后,通过统计显著性检验从中检测协同异常模式;最后从协同异常模式中生成可覆盖不同子维度以及不同子序列的协同异常事件。在真实数据集上的实验结果清楚地验证了Sevent的有效性。(4)为气象领域高温热浪事件设计了一个基于时空聚类的挖掘算法。气象领域的事件挖掘面临着各种各样的气象场景和需求。高温热浪便是其中一类重要的事件。对时空温度数据进行自动高温事件挖掘,可以帮助气象专家们对历史上各起高温热浪覆盖的时间和空间范围做界定,从而对高温热浪的起因及演化做进一步的研究。事件时空区域挖掘同时也是数据挖掘领域一类重要的问题,在各种自然、社会学科中有着广泛的应用。传统的事件时空区域挖掘算法多基于时空聚类分析,当事件覆盖的区域不规则,且随着时间推移而呈现出各种演变时难以准确对其进行捕获和挖掘;同时各项参数的合理设置也是众多已有算法所面临的问题。为了准确捕获事件时空区域,本文提出了一种新的自动优化参数的事件时空区域挖掘算法Gtem。与最小描述长度原理相结合,Gtem能自动优化各项参数设置,依据数据对象间时空相关性捕获事件随时间推移的演化趋势,挖掘起始、经过及终止过程的各种不规则形状的时空覆盖区域,同时找出孤立点。通过采用真实时空温度数据集进行高温热浪事件挖掘,验证了算法的可行性和有效性。
其他文献
分子筛材料的发展为择形催化的广泛应用提供了支撑,特别是ZSM-5分子筛的发明,促进了通过择形催化实现高选择性合成目的产物的工业应用,但ZSM-5主要针对小分子择形催化转化,在
通过奇异谱分析(SSA)技术,非平稳铜价序列被分解重构为主要信号和噪声信号。主要信号被用于支持向量机(SVM)建模对铜价进行了短期预测。研究发现:未来半年内国际铜价将呈现整
股利政策是现代股份制公司的重要财务决策,与公司的经营、投融资政策密切相关,而上市公司的股利政策则会更广泛地影响到股票市场上投资者的利益。对于哪些因素影响了上市公司
马克思所倡导的“历史唯物主义”是一种脱胎于西方历史哲学传统又超越于这一传统的历史科学。不同于近代对历史做去魅化解读的历史学或社会学方法,“历史唯物主义”与“历史
本文综述了国内外脱氯剂的开发和应用现状,并对我国研制新型脱氯剂提出了建议。
研究目的:以北京地铁八号线某区间隧道盾构工程为依托,采用FLAC模拟预测盾构施工引起的地表及其附近建筑物的变形规律,为盾构隧道施工安全通过地表建筑物时的合理施工参数确
现今,手机行业在国内快速发展,到2012年第三季度,中国手机生产出货总量已占世界总量的20%,手机产业在国内IT行业所占的比重越来越大,但随着手机价格的整体下滑,企业的成本压
翻译学跟语言学有着密不可分的关系。由于翻译界受到传统语言学的影响,传统的翻译研究均侧重于原文和译文的词、句子的对比,而且过分关注词法、句法的分析。因此,它未能涉及
本文关注新媒介技术和传播新情境的改变给个体心理过程带来的影响。不同于目前国内新媒体研究的既有成果,本研究关注个体以微博客为中介展开的线上和线下两个世界的互动仪式
自《村委会组织法》颁布以后,我国农村地区实行了以自我管理、自我教育和自我服务为形式的村民自治,民主选举、民主决策、民主管理和民主监督是自治的主要内容。村民委员会是