论文部分内容阅读
我国证券市场在上世纪90年代起步,经历了风风雨雨,逐步发展壮大,2005年底股权分置改革大幕拉开,进一步促进了我国证券行业向专业化、规范化发展。股市已成为经济形势晴雨表,正对国民经济和民生起着重要作用。作为海量数据的处理方法,数据挖掘从诞生起就和股票市场有着密不可分的联系。证券行业更是在信息化迅速发展的前提下成长起来的,很多业务都需要依赖对大量历史数据的分析,从中挖掘出有价值的信息。数据挖掘能够很好的处理这些非平稳、非正态、高噪声的数据。通过结合统计学的抽样、估计和假设检验;机器学习的搜索算法和建模技术;再加上最优化、信息论和信息检索等领域的思想,数据挖掘在处理海量数据和高频、多维数据上有着相当优势。最关键的是他能够对不断获得的新数据进行模型的动态更新,非常适合应用于新环境。股市投资涉及到股票的选择和投资时间点的选择二个方面,本文就这两点,分别利用数据挖掘中相关的分类方法和时间序列关联模式挖掘方法进行实证研究。在股票的选择上,本文用到的分类方法是决策树分类,神经网络分类和支持向量机分类方法,并通过对这些方法的比较,选择出了最佳方法用来预测。在股票的投资时间点的选择上,本文用到的是时序挖掘方法,利用关联规则分析中的经典的Apriori算法进行关联挖掘,为了找到某一只股票的投资时间点,本文对不同时间序列的不同时间段的序列进行了关联挖掘,加入了时滞阈值来考虑问题,对部分时间序列进行滞后期处理,通过对这些序列的挖掘得到了非常有价值的信息。本文的创新:在考虑投资过程中加入了机会成本的概念,建立了自己独特的股票评价方法。完善了时间序列关联挖掘,考虑了带有时滞阈值的时序关联挖掘,使分析结果具有很强的实用性。通过这两个步骤建立了可行的股票投资体系。