论文部分内容阅读
随着人类经济社会的不断发展,各行各业的信息量正呈现爆发性增长趋势,其中极具代表性的是数据量以50%以上的年成长量不断刷新纪录。为了应对数据成长的压力,人们需要更多的技术与产品来满足数据成长的需要。而数据挖掘技术恰恰能做到这一点。金融业是基于信息驱动的行业,近年来数据挖掘技术在金融领域上的应用逐渐成熟,并且有越来越多的专家参与到技术开发中,数据挖掘技术已经广泛渗透到金融行业的各个机构、各项业务、各个工作环节,这种趋势推动着金融领域数据管理的不断完善和发展,相反也让越来越多的人开始学习掌握这一门新兴的技术。在金融业中,证券业属于数据密集型行业,积累了上市公司财务报表、客户关系、市场信息、交易数据等大量信息,伴随着时间的增长和不断增加的上市公司数量,数据已呈指数型增长趋势。此外,国内证券行业政策的不断完善和开放,以及越来越多的证券公司参与进来,使得证券行业的竞争已经白热化,券商分析决策时对实时数据和历史数据的敏感度和依赖度都越来越高。数据挖掘技术作为分析与辅助决策工具已经越来越得到国内券商的重视。由于证券市场反映的是一个国家的经济状况,所受影响的因素,包括行业竞争力、国家政策、国外经济环境等各类因素,影响因素众多且影响程度均不相同,因此券商的经营对数据的正确性、实时性、安全性要求很高。整个经营过程产生的数据主要分为客户交易数据和股票行情数据两大类:股票行情数据由交易所产生,主要反映了上市公司的经营能力及其股票的市场供求状况,属于实时共享信息;客户交易数据在各个证券公司营业部产生,反映了客户的资金状况,交易状况等,属于私有数据。对于数据挖掘技术而言,上述两类数据都有很大的应用空间,其主要的应用方向有:上市公司财务指标分析、风险分析、投资组合分析、交易数据分析、客户关系管理分析等。本文探讨了数据挖掘技术在股票价格分析与预测中的应用及适应程度。以数据挖掘技术为指导,以中国A股市场的个股基本面和技术面指标作为分析对象,通过对个股进行数据挖掘,探讨各类数据挖掘技术分析在分析与预测我国A股市场股票走势的应用情况。整个步骤采用了基于sas数据挖掘方法论(semma)过程:抽样(Sample)、探测(Explore)、修正(Modify)、建模(Model)、评估(Assess)、打分(Scoring)。论文主要分为五个部分:第一部分首先介绍了股票市场的相关概念和各类学术人士对股票市场的研究和分类:根据有效市场理论将股票市场分为弱势有效市场、半强势有效市场和强势有效市场三大类,并对当前各国股票市场进行归类。然后根据市场分类的特点,叙述了当前股价分析与预测的主要方法,将股价分析与预测方法分为技术分析和基本分析两大类:技术分析包括了股票选择和建立投资组合;基本分析包括了选择交易策略和买卖时机。最后叙述了我国A股市场从1990年建市至今的发展历程,并从中总结了我国A股市场的特有性质:一是我国A股市场属于弱势有效市场;二是我国A股市场不是一般的弱势有效市场,而是具有社会主义性质的弱势有效市场。第二部分首先叙述了国内外专家对数据挖掘的定义,并通过流程图介绍数据挖掘过程:(1)应用领域知识的掌握,尤其是对应用目标相关的知识了解。(2)建立目标数据集:有针对性的选择所需数据集。(3)数据预处理:去除噪声或不一致的数据等(4)数据转换:数据变换或统一成符合挖掘的格式,如维变换。(5)选定挖掘算法:依据挖掘的目的,选择某种特定的算法以提取数据中的模式。(6)数据挖掘:用已选定的算法搜索并获取数据集中有需要的模式和知识。(7)解释:解释某个发现的模式,将其转化为能为用户所理解的模式。(8)模式评估:根据用户所需,识别出有价值的模式与知识,并将其结合到运行系统,以检查和证明所这些模式与知识的作用。其次通过图表对数据挖掘技术进行分类并介绍了各种国内外主流数据挖掘技术:(1)决策树,用二叉或多叉树形表述处理逻辑的技术,常用算法有ID3.0、C4.5、CHAID、CHRT算法,支持对离散属性和连续属性进行建模。(2)人工神经网络,模仿生物神经网络行为特征,进行分布式并行信息处理的技术,常用模型有前向式网络模型、反馈式网络模型。(3)逻辑回归,分析多个变量对结果的影响效果,常用模型有二分变量逻辑回归模型、多分变量逻辑回归模型。(4)聚类,对大量事先并未知晓其属性的数据集,按照数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。主要算法有:基于划分的算法、基于层次的算法、基于密度的算法、基于网格的算法、基于人工神经网络的算法。(5)关联规则分析,从给定的数据集中搜索数据项(items)之间所存在的有价值联系。关联规则算法主要有Aprior算法,基于划分的算法、FP-树频集算法。(6)时序模式分析,从历史的数据变动总结出其走势并预测未来走势的过程。主要分析模型有:AR模型、MA模型、ARMA模型、ARIMA模型。最后利用表格阐明各类数据挖掘算法在股票分析与预测中的作用。第三部首先介绍了股票分析预测中的基本分析和技术分析:(1)基本分析,指以经济学的供求关系原理为基础,以判断金融市场的未来走势为目标对经济和政治数据进行分析,分析因素主要有宏观经济状况、利率水平、通货膨胀、企业素质、政治因素。狭义上的基本分析通常是指广义基本分析中的企业素质,分析因素主要包括企业财务报表、行业状况、管理层素质、产品的市场竞争力等(2)技术分析,技术分析主要是根据金融商品在过去某一时间段的供需变动来分析判断该商品未来价格的走势,最初是由人们在长期观察股价变动中积累的经验所形成的能够在某种程度上反映金融商品价格行为的交易法则。从分析因素上分,主要有形态类指标,如日K线,5分钟K线等;技术类指标,如RSI指标、MACD指标等。其次分别论述了决策树、关联分析、聚类、人工神经网络、逻辑回归算法五种数据挖掘技术在股票基本分析中的应用。并以上市公司财务指标、营业能力指标、获利能力指标、负债指标等基本面指标为分析变量分别建立分析预测模型。其中决策树采用了ID3.0算法;人工神经网络采用了BP算法;关联分析采用了划分法,聚类采用了自组织映射图算法。第四部分分别论述了决策树、人工神经网络、时间序列分析四种数据挖掘技术在股票技术分析中的应用。并以个股股价、日K线、月K线、MACD、KDJ、RSI等技术面指标作为分析变量分别建立分析预测模型。其中决策树采用了C4.5算法;人工神经网络采用了BP算法;时间序列模式分析采用了ARIMA模型分析。第五部分对利用各算法建立的股票分析预测模型进行评价,对各类算法的适用程度进行评价。