论文部分内容阅读
20世纪80年代末,数据挖掘作为一个全新的研究领域悄然出现。数据挖掘的研究目的是在大型数据集中发现那些隐藏的、人们感兴趣的具有特定规律的信息。本文主要关注数据挖掘的一个重要领域:关联规则分析。1993年,AgrawalR提出了关联规则问题,此后引起了众多专家学者的广泛关注,使关联规则挖掘成为数据挖掘的一个重要方向。本文首先介绍了关联规则问题及Apriori算法,并且分析了Apriori算法存在的缺陷。之后对股票市场中Apriori算法存在的问题进行了分析,指出了由于股票市场的特殊性,Apriori算法不能有效的进行股票分析。把管理学的ABC分析法来用于股票分析,把不同类别的股票进行分类,并引进两种改进的Apriori算法:基于新交易行为敏感性的Apriori优化算法和基于权重参数的Apriori优化算法。对基于权重的Aprori优化算法提出了垂直加权计算支持度和水平加权计算支持度的方法和基于Apriori算法的权值计算方法,并证明了垂直加权计算支持度的方法适用于传统Apriori算法,根据Apriori性质定义了项集之间的权值,定义了支持度函数。在定义单个项目权值的时候可以结合ABC分析法来调整单个项目的权值,这样可以考虑出现频率和重要性的两个方面,来用于股票分析中。在第四章进行了股票的分析,把数据进行了预处理,股票代码、交易时间、涨跌幅属性进行了处理,进行数据转化,然后根据Apriori算法和改进的算法对股票进行分析。