金融数据分析领域的分类研究与实现

来源 :北京航空航天大学 | 被引量 : 0次 | 上传用户:hwj67712233
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着金融领域信息化的发展,金融机构积累了大量的数据.中国的证券市场成立十几年以来,股市的各种数据也日益增多.而激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便于更好的利用这些数据.数据挖掘就是在这种背景下应运而生的.所谓数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但有潜在有用的信息和知识的过程.而分类是数据挖掘中的一项非常重要的任务,目的是提出一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的一个,可以用于预测,即利用历史数据记录中自动推导处对给定数据的推广描述,来对未来数据进行预测.决策树算法是分类器构造的一个主要的方法,目前比较成熟的ID3、C4.5等等.而支持向量机是在统计学习理论基础上发展起来的,其主要思想是针对两类分类问题,在高维空间寻找一个超平面作为两类的分割,以保证最小的分类错误率.该文对C4.5和支持向量机做了一定的研究,并把他们应用在上市公司财务困境的预测中,取得良好的效果.该文在C4.5和SVM的基础上实现了一个数据挖掘工具集,包括数据采集模块、预处理模块和数据挖掘模块几个部分.数据采集模块能够从web网页以及分析家的数据中获取上市公司的各种数据.而通过预处理模块,该文把采集出来的数据经过复杂的抽取和整合,集成到数据库中,并完成了一个完整的CCER中国证券市场数据库.最后,该文实现了C4.5挖掘模块和SVM挖掘模块,使得用户可以完成数据挖掘的功能.由于上市公司财务数据以及收益数据涉及到大量的字段,维数超过200以上,如果不加处理将导致维数灾难和过拟合问题.该文在降维方面做了一定的研究,分别采用了主成分分析和基于SVM的RFE算法对数据进行降维,也取得了很好的效果.其中,SVM的RFE算法已经被集成到SVM挖掘模块中.
其他文献
数字水印是近几年来出现的数字产品版权保护技术,它可以标识作者等版权保护信息和认证信息.作为密码学的加密或置乱技术的补充,使用水印技术可以鉴别出非法复制和盗用的数字
认知主体(Agent)不断地通过与外界交互或观察方式获取新信息.依照信息源的不同重要性以及和对以往信念集合的不同信赖程度,新信息会被接受或舍弃.信念改变就是研究如何持续修
随着互联网的快速发展,网络应用已成为个人和企业获取与展示的信息的主要手段,而网络是网络应用的基础,网络服务是网络应用的灵魂。基于B/S架构的Web应用已经成为一种主要的
网格系统是共享因特网上分布式的资源,并进行合作的新形式.基于Web服务技术构建网格系统有助于提高网格系统的可扩展性和互操作能力,而信息服务是网格服务系统的重要组成部分
随着国际互联网的迅速发展,在给人们带来便利的同时,也带来了安全上的隐患。虚拟专用网技术的产生为解决安全问题提供了一条有效途径,通过在开放的互联网上建立一个虚拟的私有的
随着技术的发展,如今的Internet不仅是一个用来共享和交换数据的信息网络,同时也是一个最大规模的网络应用平台。其上分布着大量异构的自治资源实体,包括计算能力,信息数据,软件应
两相流动过程广泛存在于石油、化工、冶金等工业领域,其特征参数的检测对于资源合理开发和工业过程控制均具有重要意义.石油混输系统中,形成油气两相流、油水两相流或油气水
搜索引擎作为Internet上最主要的信息检索工具,在各个领域都已得到广泛应用.然而,由于网络信息量的迅猛增加和网络信息组织的无序性,传统搜索引擎的信息检索技术已经无法满足
笔式界面是飞速发展的Post-WIMP界面的主要形式之一。笔式界面是基于识别的界面,笔划是主要数据类型,由笔划组成的数据符号和命令符号的基本处理方式是识别,高识别率是大多数笔
自动指纹识别技术以生物技术为基础,以信息技术为手段,将生物特征和信息这两大热门技术结合为一体,其发展前景广阔,具有很高的实用价值和理论研究价值。本文是参与导师的课题“基