论文部分内容阅读
数据库中的知识发现(Knowledge Discovery in Databases,KDD)是近年来人工智能、数据库等领域的研究热点,其研究涵盖了多个领域的多种知识发现方法,能够发现关联、分类、聚类和时间序列等多种知识类型。尤其随着数据库应用的不断拓展和深化,从数据海洋里发现人们感兴趣的知识成为人们的迫切需求,而这更进一步推动了KDD的研究和应用热潮。随着网络和信息化建设的不断推进,银行积累了海量的客户交易数据,但目前对于数据的使用仍主要集中于日常的查询和统计处理,至于KDD在其中的应用,还处于初始阶段,主要是客户关系管理、分析和市场营销分析方面。另一方面,金融交易的安全与秩序受到愈来愈大的威胁,洗钱活动就是其中突出的一种,它严重威胁金融交易安全与秩序乃至国家经济安全,但反洗钱手段仍显落后,对金融犯罪的打击还处于人工干预阶段,亟待引入相关的各种新技术提高反洗钱的效率。就我国的反洗钱工作来讲,目前中国人民银行主导的各银行等相关机构进行大额和可疑交易报告,相关监管机构进行统计分析及相关后续处理的现行反洗钱系统存在突出缺陷:报告数据的海量与高误报率、高漏报率,预设规则易被规避和自适应能力低。本文在现行反洗钱系统实践与研究已有成果的基础上,综合利用相关异常知识发现技术(分类、聚类以及粗糙集学习理论等)研究设计了适于反洗钱的规则挖掘算法及洗钱检测算法并进而采用增量学习思想设计实现了一个具有较高自适应能力的更高效的银行反洗钱系统。这对于推动反洗钱研究,完善我国现行的反洗钱系统,高效的开展反洗钱工作具有重要的意义。本文所做研究的主要内容如下:首先,对知识发现与数据挖掘和反洗钱的基本概念、理论以及研究应用现状和发展趋势进行了综述,着重分析了反洗钱的基本框架结构以及目前反洗钱研究中常用的各类数据挖掘算法。其次,针对金融反洗钱检测相关数据集海量,高稀疏性和分布不均衡等特征,基于粗糙集理论和现有的决策树分类算法研究成果设计了基于决策分类熵的决策树构造算法实现反洗钱环境中洗钱规则的高效挖掘,根据洗钱聚类分析与检测的特点,充分借鉴现有的聚类算法及异常度量的研究成果设计了基于改进最小生成树聚类的洗钱检测与聚类分析算法实现对可疑洗钱记录的二次聚焦并提供可疑程度供进一步深入分析。再次,采用本文设计的算法,围绕知识库的组织、构建与增量学习设计了基于异常知识发现和增量学习的银行反洗钱系统,并开发实现一个原型系统对提出的算法和设计的反洗钱系统进行了实验及效果分析。最后,对本文进行的研究工作进行了总结,深刻分析了需要进一步深入研究的内容并对今后进一步的研究方向进行了展望。