论文部分内容阅读
随着数据库技术和网络技术的快速发展,企事业单位相继构建本单位的数据库应用系统和Intranet环境,日积月累,各个企事业单位均存储了大量的数据。如何有效利用这些海量数据并从中发现以前未知的、潜在的、有用的知识和规则,正是数据挖掘研究的课题。数据挖掘的这一功能也符合审计的需要,基于数据挖掘的审计成为审计领域的一个研究热点。1.本文是海关联网审计平台(CNAP)的重要组成部分和核心技术之一,以CNAP为背景,提出了一个基于关联规则的审计特征智能提取应用模型(ARAC),该模型主要解决业务事务模式生成中的异构数据预处理和基于关联规则的审计特征智能提取的问题。2.本文引入XML作为异构数据的描述,解决异构数据间集成的问题,在此基础上进行数据预处理,本文设计了将领域知识应用于ARAC数据预处理的模型和算法,然后利用基于最大向前访问路径的事务模式识别算法形成准确率较高的事务模式。3.本文对经典Apriori算法进行研究,根据Apriori算法存在的问题,提出了一种基于二进制形式的候选频繁项目集生成算法B - Gen( LK-1)和相应的计算支持数算法B - Calculate-count(C k)。该方法己成功应用到CNAP系统中,且效率高于普通的关联规则挖掘。4.最后,在前述各项研究成果的基础上,对相关实验的运行结果进行了分析,从而说明改进的关联算法在ARAC中是可行且高效的,同时也证明了ARAC模型的可行性。关联规则等数据挖掘技术在审计领域应用是个崭新的课题,其相关的许多技术还正在发展,本文最后对进一步的研究工作进行了探讨。