论文部分内容阅读
随着计算机软、硬件技术的不断发展,数据仓库(DW)、数据挖掘(DM)技术已经开始走向成熟。同时金融领域进一步开放,行业竞争越来越激烈,对信息化建设提出了更高的要求。银行信息化历程经历了三个阶段:业务信息化、数据大集中、管理信息化。目前大多数银行已完成了数据大集中—第二历程。而银行管理信息化的需求变得非常迫切,数据仓库及数据挖掘技术为银行管理信息化提供了技术支撑平台。国内金融企业数据管理应用的普遍现状是:汇集了海量的数据信息,但是不能很好的发现数据中存在的关系和业务规律及预测未来业务发展趋势,而国际性金融企业广泛使用数据挖掘技术在同业竞争中获得了优势地位,并且正在创新金融服务和产品。因此,国内金融企业需要加快实现客户资源整合、经营分析及投资决策的信息化的脚步。本文主要做了如下工作:1.对国内外银行业信息化的研究现状进行了系统的综述和分析。对银行业中的数据仓库和数据挖掘技术进行了深入研究,结合国内银行业的特点提出一种基于DB/ODS/DW的数据仓库三层体系结构,用来平衡一些数据仓库难以解决的查询、分析应用,减轻数据仓库系统的管理负荷。2.立足于整个商业银行的业务和管理角度,通过对银行业务流程及银行各部门应用需求的详细分析,构建了NCR数据模型,确定了当事人、产品、协议等十个主题。3.详细介绍了数据仓库建立过程中的ETL过程,研究ETL过程中缺损数据和相似记录的清洗方法。提出基于分词技术的相似记录判定方式,以及简单残缺记录处理算法并进行设计实现。4.给出了联机分析处理的多维分析模型,详细阐述了多维设计思想在银行业中的应用。5.改进数据挖掘的关联规则算法-Apriori算法,采用矩阵形式,只扫描一次数据库,采用先假设频繁项目集项目数的办法,从高阶项目集着手寻找频繁项目集,最大限度的减少了候选数据集的个数,大大提高了算法的效率。在读研究生期间,已在计算机类刊物《电脑知识与技术》、《贵州大学学报》发表两篇论文。