时间序列数据挖掘中的维数约简与预测方法研究

被引量 : 0次 | 上传用户:kongct_2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列数据是一种常见的数据形式,广泛存在于各种现实应用中。相应地,利用数据挖掘技术从时间序列中发现其中蕴含的信息和知识也成为了研究的热点,其研究成果在金融、工业、农业、医药、气象、交通、计算机网络等领域取得了成功的应用。然而不同于传统静态数据,时间序列数据通常具有时序性、数量大、维数高、特征多等特性。因此,研究如何有效地通过时间序列数据挖掘技术来处理和分析时间序列数据具有重要的意义。本文以时间序列数据为研究对象,针对时间序列的高维特性,主要研究时间序列的维数约简技术,包括特征提取方法与特征表示方法。从时间序列的应用角度出发,主要研究时间序列的预测方法,包括单变量时间序列的预测与多变量时间序列的预测。时间序列的特征提取是通过选择数量较少且反映原序列主要信息的特征子集实现维数约简的技术。针对时间序列的时序特性,本文提出了一种基于因果关系挖掘的多变量时间序列特征提取方法。该方法是一个二维的特征提取,即不仅提取出特征变量,也提取特征变量的有效滞后期。同时,利用Granger因果关系挖掘的因变量及滞后期所组成的特征子集对结果也有较好的因果解释性。时间序列的特征表示是将高维的时间序列数据转换为低维表示并尽可能保留原始时间序列的特征信息。针对传统符号表示方法中只根据均值特征描述原始时间序列可能造成信息丢失的不足,本文提出了基于趋势距离的时间序列符号聚集近似表示方法,并构造了满足距离下界性的距离度量。首先提出了基于序列段起点值和终点值的趋势距离度量方法来量化不同趋势的差异,然后把趋势因素集成到原符号聚合近似表示方法中,实现利用均值特征和趋势特征共同表示原始时间序列。单变量时间序列预测是利用时间序列自身的历史值来预测未来的数据。针对传统的基于自回归滑动平均模型的预测模型建立后不能更新最新时间序列信息的不足,本文通过将自回归滑动平均模型的差分方程形式与传递形式结合,构建了一种预测值实时自修正的预测模型。新的预测模型会包含新的观测值的影响,从而提高预测的精度并减少运算量。多变量时间序列预测是利用多个变量时间序列对目标时间序列进行预测。本文的预测方法首先利用基于因果关系挖掘的特征提取方法对多变量时间序列进行特征选择,然后使用支持向量回归对目标序列进行预测。特征提取过程中剔除冗余变量和无关变量,从而达到降低支持向量回归的输入维数并提升预测准确率的效果。
其他文献
近年来,在我国中东部地区多个城市频繁出现了严重的雾霾天气,此区域性的雾霾污染已严重阻碍我国经济和社会的发展,对民众的身心健康等都构成严重的威胁。雾霾天气的“罪魁祸首”
自控型班组建设是维修体制改革的重要内容,是铁道部"三项工程"建设的组成部分。介绍了上海电务段在自控型班组建设中的做法和取得的成绩及经验。
随着艾滋病疫情的全球蔓延,如何最大限度地唤起人们对艾滋病问题的关注成为各国的重要任务。作为一种为公共利益服务的宣传形式,公益广告在普及艾滋病科学知识方面起到功不可
“村容整洁”是建设社会主义新农村的基本要求之一,但在农业经济快速发展的过程中,农村居民生活环境建设却没有受到应有的重视,固体废弃物污染现象日益突出。导致污染现状的一个
防屈曲支撑是一种新型的耗能减震构件,采用防屈曲支撑加固的结构,其耗能和延性相比无支撑或普通支撑加固结构,抗震性能有显著提高。本文采用防屈曲支撑对一栋在汶川地震中遭到严
应对灾难,需要坚实的物质基础,更需要强大的精神力量。经历了汶川地震、玉树地震、舟曲特大山洪泥石流、芦山地震等多次灾害的实践和历练后,我国的灾后社会心理援助已逐渐步入正
<正>同型半胱氨酸(Homocysteine,Hcy)是一种体内不能合成的含硫四碳氨基酸,其既是蛋氨酸循环的正常代谢产物,也是能量代谢和甲硫氨酸代谢障碍的重要产物。高同型半胱氨酸血症
土地利用总体规划是一种为实现土地资源的合理优化配置和可持续利用,并依据社会经济发展需要和土地禀赋条件等,对一定区域未来土地利用的结构、布局进行安排以及制定相应措施的
目前工业上采用活性炭为载体的高汞催化剂通过乙炔氢氯化反应合成氯乙烯,但催化剂中的氯化汞组分易升华流失造成污染,因此亟需开发新型低汞催化剂取代传统高汞催化剂。本文以椰
随着稀土永磁材料和电力电子器件的不断发展,以及微电子技术和控制技术快速进步的情况下,无刷直流电机取得了广泛的发展和应用。无刷直流电机是在有刷直流电机去除了换相装置和