论文部分内容阅读
以往对时间序列数据的研究中,主要集中在对数据的预测分析、聚类分析和关联分析。在现有的研究方法中主要存在以下几个缺点:第一,现有的时间序列预测模型大多使用单网络模型对数据进行分析,忽略了不同数据具有不同特征,从而导致单网络模型不能适应所有数据而使得预测精度不高;第二,在现有的聚类算法中,多数使用数据间数学距离,使用不同规则进行聚类,从而导致聚类不能发现数据间天然存在的隐式关系;第三,现有的关联挖掘中通常使用数学方法计算数据之间的关联构建复杂网络进行挖掘分析,忽略了数据内部的隐式关系,导致数据分析角度较为单一。针对以上问题以往使用经典数学关系为依托对数据进行关系挖掘,本文主要提出循环进化网络预测与关联挖掘算法框架。该框架以机器学习分析数据间的关联为基础构建复杂网络进行数据挖掘和知识发现。同时该框架以循环进化网络为基础,进行数据的预测和聚类,以复杂网络为依托进行数据的关联挖掘。以金融股票市场和海洋大数据为背景,以板块股票价格和海洋水文动力学要素为对象,研究主要内容如下:第一、针对单模型不能精准预测问题,本文提出循环进化网络模型。该模型是多个单模型构成,每个模型都可以针对不同特征的数据进行预测分析,从而提高预测精确度。该模型是由单模型构成的链状结构,其中每个单模型中含有数值预测单元和误差预测单元,误差预测单元用于预测数值单元预测的数据误差,然后根据数据划分规则进行数据分流,再次进行数据训练,最终通过终止机制停止数据训练。在应用方面,该模型在对海洋表面温度数据进行测试,并与其它模型进行对比,验证该模型可以提高数据预测的准确率,并优于其它模型。第二、针对现有聚类方式是基于数据距离的聚类方式问题,本文提出基于不同策略的循环进化网络聚类,分别为基于误差均值的数据聚类方式和基于专家经验的数据聚类方式。这两种聚类方式均以循环进化网络预测为基础,以数据划分方式为核心的数据聚类。最后,将该模型运用于单点的海洋表面温度数据进行划分,可以看出聚类数据具有空间连续性,并且具有季节周期性特征,因此该种聚类方式是有意义的。第三、针对现有数学方式构建复杂网络进行关联分析的问题,本文提出利用机器学习的方式建立数据关系构建复杂网络。该模型通过使用循环进化网络的聚类结果计算数据之间的重合度,然后通过数据重合度构建复杂网络,再通过分析复杂网络的节点平均加权强度、平均路径长度、复杂网络模块度和特征向量中心进行数据的关联挖掘。在利用前期工作中的数学关系构建复杂网络对金融数据进行分析可以挖掘出股票数据的板块联动特征和板块漂移现象。在利用机器学习关系构建复杂网络对海洋动力学要素多点数据进行研究过程中,可以发现数据之间的遥相关特性。本文中基于循环进化网络的时间序列预测与关联挖掘框架,是一个以数据驱动构建多网络模型为基础,以数据划分规则为核心,以复杂网络分析为依托的预测分析与挖掘分析一体化模型。