论文部分内容阅读
自从证券市场出现以来,人们便不断地尝试发掘其潜在规律。随着数据挖掘技术的发展,数据挖掘被引入了股票指数分析的研究领域。聚类分析是数据挖掘中一种常用的分析工具。近些年,许多研究者对股票数据进行聚类分析,以尝试获得一些传统分析方法无法得到的有用信息。在所有聚类算法中,Kmeans以广泛的数据适应性著称:不论何种维度类型的数据,Kmeans都可以很好的适应。因此,本文作者将使用Kmeans作为聚类分析的基础算法。然而,在使用Kmeans分析股票数据时,作者发现Kmeans并不总是适应股票指数数据。体现在聚类结果上表现为,聚类结果中不同聚类之间相互交错不能很好的分离开。经过分析与思考后,作者认为:之所以Kmeans无法得到有效的聚类结果是因为,使用Kmeans分析股指类数据不可避免地会产生信息的丢失。这是其他大部分研究者,关注较少的地方。众所周知,投资者研究股票数据时,会关注同一技术指标在不同参数下形成的不同曲线之间的相互变动关系。但是,如果使用Kmeans进行聚类分析,这些曲线之间的相互变动关系将会丢失。因此,如何找回丢失的信息,是本文的重点研究对象。为了解决信息丢失的问题,作者提出两个新指标来保留有用信息。之后,作者通过实验验证了提出算法的可行性。由于两个新提出的指标,在数据预处理阶段被计算。因此,我们可以把提出的解决方案看作一种特殊的数据预处理方法。为了验证提出的数据预处理方法的有效性,文中做了多组对比实验。实验结果显示,提出的数据预处理方法显著地提高了聚类算法的有效性。并且,使用提出的数据预处理方法后,Kmeans可以更有效的找到最适合的聚类个数K,并且聚类结果中的各个聚类有着较高紧密度和离散度。简而言之,本文提出的数据预处理方法可以让Kmeans算法,在处理股票指数数据时,得到了更为有效的聚类结果。与此同时,多组对比实验表明,本文提出的预处理方法广泛适用于股票指数数据。