论文部分内容阅读
在信息技术的带动下,时间序列数据挖掘这一课题渐渐成为研究者们关注的热门话题。相似性查询是完成其他时间序列数据挖掘技术工作的首要步骤,而模式匹配是相似性查询中的一项基础性工作,因此模式匹配在时间序列数据挖掘领域中占据基础而核心的地位。由于多元时间序列本身高维数的特性,导致多元时间序列的模式匹配方法的计算复杂度较高。如果先进行降维处理,再使用模式匹配方法度量降维后的数据的相似性就会解决高维数带来的计算复杂度较高的问题。本文将主成分分析方法加以改进,提出共同主成分分析方法,利用平安银行的股票数据进行仿真实验,检验共同主成分分析方法的优越性,并且在共同主成分分析方法降维的基础上,结合趋势距离模式匹配方法,提出一种有效的多元时间序列模式匹配方法。主要内容如下:1)由于多元时间序列本身的高维数特性,导致现有的多元时间序列模式匹配方法在度量数据的相似性过程中具有较高的计算复杂度,而主成分分析方法是降维方法中最常用的。针对主成分分析方法的特点,本文提出共同主成分分析方法,该方法是在主成分分析方法的基础上,对其加以改进。使用Matlab软件,对2013年3月1日到2013年12月27日之间的200组平安银行股票数据中能够表现股票特征的六个属性值,即开盘价、最高价、最低价、收盘价、成交量和成交额,进行仿真实验,并与主成分分析方法进行对比,实验结果表明,共同主成分分析方法与主成分分析方法相比,能够更好地降低原始多元时间序列的维数。2)深入分析了现有的多元时间序列模式匹配方法的优缺点,引入趋势距离多元时间序列模式匹配方法,并与降维方法结合,提出一种有效的多元时间序列模式匹配方法。为了降低度量过程中的计算复杂度,本文利用共同主成分分析方法,先使用Matlab软件对平安银行从2012年3月1日到2012年12月21日的200组股票数据进行降维处理,再利用趋势距离模式匹配方法对降维后的数据进行模式匹配,并且通过与动态时间弯曲距离方法和奇异值分解方法进行对比实验来验证该方法的有效性。实验结果显示该方法能有效地度量多元时间序列数据的相似性。