基于Kmeans的综合股指类数据的聚类研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:leoric
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从证券市场出现以来,人们便不断地尝试发掘其潜在规律。随着数据挖掘技术的发展,数据挖掘被引入了股票指数分析的研究领域。聚类分析是数据挖掘中一种常用的分析工具。近些年,许多研究者对股票数据进行聚类分析,以尝试获得一些传统分析方法无法得到的有用信息。在所有聚类算法中,Kmeans以广泛的数据适应性著称:不论何种维度类型的数据,Kmeans都可以很好的适应。因此,本文作者将使用Kmeans作为聚类分析的基础算法。然而,在使用Kmeans分析股票数据时,作者发现Kmeans并不总是适应股票指数数据。体现在聚类结果上表现为,聚类结果中不同聚类之间相互交错不能很好的分离开。经过分析与思考后,作者认为:之所以Kmeans无法得到有效的聚类结果是因为,使用Kmeans分析股指类数据不可避免地会产生信息的丢失。这是其他大部分研究者,关注较少的地方。众所周知,投资者研究股票数据时,会关注同一技术指标在不同参数下形成的不同曲线之间的相互变动关系。但是,如果使用Kmeans进行聚类分析,这些曲线之间的相互变动关系将会丢失。因此,如何找回丢失的信息,是本文的重点研究对象。为了解决信息丢失的问题,作者提出两个新指标来保留有用信息。之后,作者通过实验验证了提出算法的可行性。由于两个新提出的指标,在数据预处理阶段被计算。因此,我们可以把提出的解决方案看作一种特殊的数据预处理方法。为了验证提出的数据预处理方法的有效性,文中做了多组对比实验。实验结果显示,提出的数据预处理方法显著地提高了聚类算法的有效性。并且,使用提出的数据预处理方法后,Kmeans可以更有效的找到最适合的聚类个数K,并且聚类结果中的各个聚类有着较高紧密度和离散度。简而言之,本文提出的数据预处理方法可以让Kmeans算法,在处理股票指数数据时,得到了更为有效的聚类结果。与此同时,多组对比实验表明,本文提出的预处理方法广泛适用于股票指数数据。
其他文献
号称中国零售业最大并购案的沃尔玛并购好又多案将全面提速,而四川正是双边整合的一个重要试验区。据悉,好又多在加盟沃尔玛全球大家庭之后,中国第一个新版门店将于年底亮相绵
报纸
<正>一、引言2009年7月8日,美国《财富》杂志公布了2008年度全球500强排行榜。2009年的排行榜,是全球金融海啸肆虐后,《财富》第一次对全球企业重排座次,金融海啸对企业沉浮
DS18B20数字温度计是DALLAS公司生产的1—Wire,即单总线器件,具有线路简单、体积小、低功耗、高精度、抗干扰能力强等特点的数字温度传感器。简要介绍了DS18B20的基本特点、
文章以淮南市为例,提出了煤炭城市能源与环境可持续互动发展模式,并给出了煤炭城市实施能源与环境可持续互动发展模式的具体对策。
全球定位系统(GPS)已经广泛应用于各个领域。GPS可以确定公交车的地理位置,只要把公交站点的位置数据(经、纬度)记录下来,就可以知道公交车是否到达站点。利用GPS实现公交车
一般用人单位均在劳动规章制度中对劳动者的工作时间制定集体性的规定,同时在劳动合同中对个人劳动者工作的时间及周期进行约定,从而使劳动者服从用人单位的指示工作。在当今
经济发展与环境保护是当代发展中国家突出的两项任务,环境库兹涅茨曲线解释了发展中国家经济与环境的相互关系。然而,在贸易自由化和环境优先保护贸易保护论的双重影响下,发
目的总结原发性十二指肠腺癌好发部位、常见临床表现和诊治方法,探讨提高其生存率的有效方法。方法回顾性分析我院1994年7月~2004年6月收治并经病理学证实的31例原发性十二指
气凝胶连续的纳米多孔网络结构使得其具备很多独特的性能。气凝胶种类繁多以及制备方法的多样性、广泛的应用前景等使得其成为当今材料科学领域的研究热点之一。本文主要从气
目的 探讨气管插管全身麻醉下腹腔镜胆囊切除术 (LC)时CO2 气腹对患者血气变化和血液流变学的影响 ,观察LC的适应性及安全性。方法 选择的 3 5例均为因胆囊炎而行择期LC手