论文部分内容阅读
随着金融领域信息化的发展,金融机构积累了大量的数据.中国的证券市场成立十几年以来,股市的各种数据也日益增多.而激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便于更好的利用这些数据.数据挖掘就是在这种背景下应运而生的.所谓数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但有潜在有用的信息和知识的过程.而分类是数据挖掘中的一项非常重要的任务,目的是提出一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的一个,可以用于预测,即利用历史数据记录中自动推导处对给定数据的推广描述,来对未来数据进行预测.决策树算法是分类器构造的一个主要的方法,目前比较成熟的ID3、C4.5等等.而支持向量机是在统计学习理论基础上发展起来的,其主要思想是针对两类分类问题,在高维空间寻找一个超平面作为两类的分割,以保证最小的分类错误率.该文对C4.5和支持向量机做了一定的研究,并把他们应用在上市公司财务困境的预测中,取得良好的效果.该文在C4.5和SVM的基础上实现了一个数据挖掘工具集,包括数据采集模块、预处理模块和数据挖掘模块几个部分.数据采集模块能够从web网页以及分析家的数据中获取上市公司的各种数据.而通过预处理模块,该文把采集出来的数据经过复杂的抽取和整合,集成到数据库中,并完成了一个完整的CCER中国证券市场数据库.最后,该文实现了C4.5挖掘模块和SVM挖掘模块,使得用户可以完成数据挖掘的功能.由于上市公司财务数据以及收益数据涉及到大量的字段,维数超过200以上,如果不加处理将导致维数灾难和过拟合问题.该文在降维方面做了一定的研究,分别采用了主成分分析和基于SVM的RFE算法对数据进行降维,也取得了很好的效果.其中,SVM的RFE算法已经被集成到SVM挖掘模块中.