【摘 要】
:
随着金融业务的发展,业务变化越来越频繁,仅依赖业务专家总结业务规则的速度已经难以跟上业务变化的速度,采用数据挖掘的方法辅助业务规则快速发现和验证具有重要的实际应用
论文部分内容阅读
随着金融业务的发展,业务变化越来越频繁,仅依赖业务专家总结业务规则的速度已经难以跟上业务变化的速度,采用数据挖掘的方法辅助业务规则快速发现和验证具有重要的实际应用价值。本文以一个大型银行对账系统的规则挖掘为背景,系统研究了分类规则挖掘的方法,提出了分类规则挖掘的方案。首先,本文介绍了本项目的背景和需求,阐述了将金融规则挖掘转换为分类规则挖掘的过程。介绍了金融规则挖掘中数据平衡和非平衡,有分类标签和无分类标签四种场景。然后,本文研究了基于决策树的分类规则挖掘方法。针对有分类标签的非平衡数据集,本文提出了基于KNN的样本选择与决策树算法相结合的分类规则挖掘方法。该方法通过找到与分类最相关的正样本,有针对性地对正样本采样,达到数据平衡化的效果。通过实验对比证明对非平衡数据集,该方法比一般的决策树算法提炼出的分类规则更简洁,更符合真实情况。最后,论文针对无分类标签的平衡数据集和非平衡数据集,分别提出了基于聚类的分类规则挖掘方法和基于LOF算法的分类规则挖掘方法,通过人-机协作的多迭代过程,使得在取得较高规则准确度的前提下,大大减少人工标注数据的工作量。通过实验对比证明对平衡数据集,基于聚类的分类规则挖掘方法收敛速度更快,在保证规则准确度的前提下标注的数据更少;对非平衡数据集,基于LOF算法的分类规则挖掘方法收敛速度更快,在保证规则准确度的前提下标注的数据更少。
其他文献
随着新能源开发利用进程的加快,风力发电成为当今社会很热门的一个话题。我国风力资源极为丰富,风能利用一直很受政府重视,风电场的建设也在日趋扩大。在风电场的实际运行中,风电机组相关工作人员需要通过Internet远程访问风电机组获得所需实时信息,实行远程诊断与远程维护,保证风电场的正常运转。在各类用户与风电机组交换信息的过程中,监测数据与控制命令在基于TCP/IP的网络上很容易被未授权的用户窃听和篡改
心电信号是一种弱电信号,在信号采集、A/D转换和放大过程中,会受到来自系统内部和外界的各种干扰。计算机网络具有连接方式多样、终端分布不均匀性和网络的开放性等特点,存在着
随着互联网和Web技术的飞速发展,传统的图书馆正在向数字化和网络化过渡,各种各样的数字资源层出不穷,给科技文献检索和查新工作带来了诸多不便。需要构建一个能够整合各种异构
由于本文致力于移动无线网络(MANET)中的安全问题与博弈论方法相结合的研究工作。MANET由于其特性,面临着多方面的,各种具有挑战性的安全问题,从底层硬件问题,软件问题,信道
说话人识别作为生物特征量识别技术,在司法鉴定、信息安全、人机智能等领域具有重要意义。本文借鉴传统语音信号分段方法,以符合人耳感知规律原则,研究新型频段划分方法,并从
本文提出了基于警示传播的启发式极性决策算法(WPDP),是一个完全算法,不但能够解决大部分难解可满足性实例,而且能够验证实例的不可满足性。它继承了Zchaff算法的基本特性,如快速
随着信息网络技术的广泛普及,各种网络应用不断深入,从传统的小型业务系统逐渐向大型的关键业务系统扩展。全球化的网络结构已经打破了传统的地域限制和办公方式。今天,跨区域工
星敏感器是一种高精度的姿态确定仪器。在过去大约30年时间里,已经研制了两代CCD星敏感器。第二代星敏感器由于指向精度高、无姿态累计误差、快速的故障恢复能力和完全自主的
系统生物学的发展使得生物建模和计算机模拟成为生物过程模拟中越来越重要的手段,可以有力地支持生物学家及其他研究人员在医学和制药等领域的研究。将生物实验的机理抽象转
随着计算机技术的快速发展,网络安全受到了前所未有的考验。缓冲区溢出攻击是威胁计算机安全的主要攻击方式。此类攻击数量繁多、危害性大,因而对缓冲区溢出问题的研究有着深