论文部分内容阅读
随着市场经济的发展,我国的股市正日益成熟和规范,投资者在进行投资决策时也愈加趋于理性化。目前可以运用许多统计分析方法来发现一些隐藏在股票信息中的规律,以帮助投资者对股票进行分析和预测。 然而,常用的这些统计分析方法无法发现出在股市中存在的这样一些带有时间约束的规律——在某个时间段W(如一天)内,如果股票A的收盘价上涨超过5%,那么间隔INT个时间段(如两天)后的那个时间段(即第三天)内股票B和股票C会以80%的可能性也上涨(或下跌)。因此,本文采用一种目前正在发展的新技术——数据挖掘技术来发现股市中存在的这类复杂的序列规则。这类具有时间段W和时间间隔INT两维约束的序列规则的挖掘无疑对于指导投资决策具有重要的意义。 本文主要有三个创新点。其中第一个创新点是在本文中建立了两个具有时间约束的股票序列模式挖掘模型:带有确定的时间段W约束的一维模型和带有确定的时间段W及时间间隔INT约束的二维模型。第二个创新点则是通过对关联规则的Apriori算法和FP_Growth算法进行扩展来实现一维股票序列规则的采掘。至于第三个创新之处就是通过设计一个全新的算法来实现二维股票序列规则的挖掘。在本文的最后一章通过一个实证研究对本文所提算法的可行性进行了验证。 本文一共分为四个部分:第一部分介绍了传统的股票分析方法及数据挖掘技术的基本概念;第二部分则建立了两个具有时间约束的股票序列模式挖掘模型;第三部分就对具有时间约束条件的股票序列规则采掘的一维和二维算法进行了实现,并且扩展讨论了在分布式环境下进行这类序列规则的挖掘所需注意的几个问题;最后一部分则进行了一个实证研究来对本文所提出算法的正确性进行验证。