论文部分内容阅读
数据挖掘是商务智能的核心技术之一。近年来,数据挖掘已经被广泛应用于金融管理、客户关系管理、工作流管理、风险管理等管理领域,对企业的决策支持、成本控制、组织协同等提供了极大帮助。聚类分析是数据挖掘研究的一个重要组成部分。聚类是把对象的集合分组成为多个簇的过程,使同一个簇中的对象具有较高的相似度,而不同簇的对象差别较大。聚类分析已在股票数据分析、市场细分、生产监管、异常检测等领域发挥重要作用。在聚类分析的众多算法中,谱聚类是基于谱图理论的一类新的聚类方法,具有能够对任意形状的数据进行划分、易于执行等优点。许多文献已经对谱聚类算法的特点进行了深入研究,并提出了一些改进方法。然而,无论从理论、算法还是实践层面,仍有很多问题有待解决,例如:谱聚类方法中如何确定数据集的既合理又稳定的聚类数目?如何选取包含聚类信息的特征向量组?从矩阵扰动理论角度看多路归一化割谱聚类方法是否合理?利用成分分析法对单变量时间序列降维的原理是什么?如何利用谱聚类方法对实际的金融时间序列数据进行分析?有鉴于此,本文围绕谱聚类方法及其在金融时间序列数据挖掘中的应用做了如下工作:(1)针对经典谱聚类的聚类数目估计问题,提出了基于稳定性的非唯一聚类数目确定方法。对候选聚类数目七,该方法利用本文提出的Ratio(k)指标评价与其对应的划分结果的合理性。进一步,通过改变高斯核参数的大小来确定划分结果的稳定性。所提方法能够找出一组既合理又稳定的聚类数目。(2)针对谱聚类方法中选择包含聚类信息的特征向量组问题,提出了谱聚类中自动选择包含聚类信息的特征向量组方法。通过该方法找出的包含聚类信息的特征向量组关于高斯核参数的稳定性较好、其聚类特征比较明显,而且该方法易于执行。(3)以矩阵扰动理论为工具,对多路归一化割谱聚类方法的合理性进行了分析。分析结果表明,从矩阵扰动理论角度看,在理想情形下设计谱聚类方法并将其推广到一般情形的做法是合理可行的。(4)针对主成分分析法对单变量时间序列降维原理问题,从线性空间中向量、基向量和系数矩阵间关系角度对其进行解释。在此基础上,提出了一种基于主成分分析的单变量时间序列谱聚类方法。该方法体现了在线性空间中同一组基下,用系数之间的相似性来反应对应向量之间相似性的思想。(5)针对独立成分分析法对单变量时间序列降维原理问展开讨论,考虑了独立成分分析法的含混性对聚类结果的影响。在理论分析的基础上提出了一种基于独立成分分析的时间序列多路归一化割谱聚类方法。该方法首先选用独立成分分析法对时间序列数据进行特征提取,然后利用本文提出的广义特征值法估计聚类数目,最后利用多路归—化割谱聚类方法对提取出的特征数据进行聚类,从而完成对原单变量时间序列的聚类任务。(6)采用多路归—化割谱聚类方法,对欧洲主权债务危机背景下的全球主要股指进行了联动性与稳定性分析。首先分别实证考察了全球主要股指在欧洲主权债务危机开始前、开端、发展、蔓延、升级、调整、再升级以及复苏等八个不同阶段内的联动性及各相邻阶段之间的变化,即稳定性特征。其次考虑了全球主要股指在欧洲主权债务危机不同阶段的聚集情况。(7)采用多路归一化割谱聚类方法和独立成分分析法对国内开放式基金进行了投资风格识别研究。为此,首先,利用独立成分分析法对所选出的开放式基金进行特征提取。其次,采用本文提出的广义特征值法估计聚类数目并运用多路归—化割谱聚类方法对提取出的特征进行划分,从而完成对原开放式基金的投资风格分类。最后,选用本文提出的基于Sharpe系数间隙判断投资风格归属的方法判断各类代表元基金投资风格的具体类型。