论文部分内容阅读
金融机构的大量业务活动都越来越依赖于对大量历史数据的分析,从金融数据中挖掘出有价值的信息是金融管理决策智能化的必要手段与核心工作。时间序列是金融领域中非常重要的一种数据类型,而传统的金融时间序列分析方法都无法有效地处理较大规模的数据集,也无法从大量数据中主动地发现各种潜在规则。数据挖掘技术为金融时间序列的模式挖掘提供了有效的途径。本文结合金融时间序列的特征与金融分析的需求,运用数据挖掘技术对金融时间序列模式挖掘的相关方法进行研究,包括金融时间序列的分段与表示、金融时间序列的相似性计算、金融时间序列的关联规则挖掘与聚类分析等等,这些问题的研究对于金融市场隐含模式与规律的主动发现以及金融领域趋势分析与趋势预测具有非常重要的意义。本文的研究成果主要包括以下几个方面:(1)金融时间序列的形态和趋势本身都蕴含了大量的信息,然而,很多时间序列分段和表示的方法都破坏了序列的形态,或者平滑掉了关键点。针对这一问题,本文提出了多层次极值点分段表示法(MEPS),根据序列点与相关邻域内的点之间的比较来确定该点的重要程度,并在不同重要程度的层次上对序列进行分段。此方法在不同层次上保留了序列的关键点信息,从而能充分捕捉和表示时间序列的趋势与形态。(2)针对金融时间序列相似性度量的问题,本文提出了基于分层的动态时间弯曲相似性度量方法(HDTW),使用MEPS算法将时间序列在不同层次上进行分段,然后使用DTW算法计算对应层次的相似性。并在此基础上从三个方面进一步提出了改进算法(IHDTW),提高了相似性度量的准确性与效率。最后,在相似性度量过程中加入了用户的实际偏好与需求,通过事件的定义来抽象用户的挖掘需求,提出了基于事件的时间序列相似性度量方法(SMBE),使得时间序列相似性度量的结果更加符合实际。(3)多元时间序列跨事务时间序列关联规则挖掘对于准确预测金融时间序列的走势具有非常重要的意义。本文首先提出了一种优化的O-Apriori算法,设计并定义了频繁状态矩阵来存放项集的频繁状态,并根据跨事务时间序列关联规则的定义对寻找频繁项集的过程进行约简,大大提高了算法的效率。然后,提出了基于可变支持度的O-Apriori算法(VSO-Apriori),设置变化的最小支持度阂值来对应不同级别的频繁项集,能挖掘出更多有效的关联规则。最后,基于滑动时间窗口的思想提出了一种动态关联规则挖掘的算法(SI-DARM),该算法能对多条实时时间序列数据流在不同挖掘区间进行频繁项集与关联规则的挖掘,并能跟踪及演化频繁项集在不同挖掘区间的模式变化。(4)聚类分析也是金融时间序列挖掘中非常重要的一项内容,通常为其他的数据挖掘任务提供先期的分类结果。本文首先提出了基于IHDTW的聚类算法,采用共享最近邻相似度(SNN)的思想构建序列间的相似性计数矩阵,并利用相似性计数矩阵来寻找聚类中心序列,大大提升了聚类效果。然后,提出了一种基于SMBE的层次聚类算法,该算法专门针对满足用户需求的事件的相似性进行聚类,采用类间相似度和类间一般距离两个参数的比较作为判断类间距离的依据,大大提升了聚类的效果。最后,提出了一种基于形态特征的多时间序列数据流的实时聚类算法,在数据概要设计中采用重要特征点作为子序列的特征信息,采用动态滑动窗口设计保证了多条数据流之间的数据同步,该算法可以实现任意时刻的数据流聚类,并且能够实时追踪聚类结果的演化过程。(5)综合运用前面提出的金融时间序列的关联规则挖掘算法和金融时间序列的聚类算法,提出了金融时间序列的综合预测方法,并以实际的沪深A股交易市场的数据为例对预测方法进行了验证,该方法可以对3个交易日内股票价格的变化区间和60个交易日内股票价格变化的趋势进行比较准确的分析与预测。