论文部分内容阅读
摘要:概括介绍了数据挖掘的内涵,阐述了在计算机辅助审计中数据挖掘技术的应用, 且给出了在计算机辅助审计中数据挖掘技术的步骤。
关键词:计算机辅助审计 数据挖掘 聚类分析
中圖分类号:TD327.3 文献标识码:A 文章编号:1009-914X(2013)29-259-01
计算机辅助审计技术大大地提高完成审计任务的效率。随着数据库管理系统和先进快速的数据采集技术的广泛应用, 被审单位的数据积累量也迅速增长。被审单位提供的大量数据中涵盖着极其丰富的信息。依靠传统的数据检索查询机制和统计分析方法来对被审计单位经济活动产生的电子数据来分析被审单位的经济活动情况是非常困难的。
数据挖掘等面向分析决策的计算机技术应运而生, 而且发展很快。在审计系统中采用数据挖掘技术可为现代化审计提供新的思路和方法, 可以大大地提高审计质量。
一、数据挖掘概述
数据挖掘指的是从大型数据库或大量的数据中提取出新的人们感兴趣的、隐含的、先前未知的、对决策有潜在价值的知识的一种技术。在人工智能领域, 这种知识发现被归为归纳学习的一种。
数据挖掘综合了各个学科技术, 有很多的功能,主要功能有以下几点:1、关联分析。关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的取值之间重复出现而且概率很高时, 就存在某种关联, 可以建立起这些关联项的关联规则。2、聚类。识别出分析对象内在的规则, 按照这些规则把对象分成若干类。3、时序模式。通过时间序列搜索出重复发生概率较高的模式,强调时间序列的影响。4、分类。按照分析对象的属性、特征, 建立不同的组类来描述事物。5、偏差检测。对分析对象的少数的、极端的特例的描述, 揭示内在的原因。6、预测。把握分析对象发展规律, 对未来的趋势做出预见。
需要注意的是, 数据挖掘的各项功能并不是独立存在的, 而是在数据挖掘中互相联系, 发挥作用。
二、数据挖掘在审计中的应用
针对审计系统中数据的特点, 包括数据的存储量、数据结构等特点, 可以从众多数据挖掘方法中选择2 种方法在计算机辅助审计系统中进行应用。
(一) 聚类分析方法
聚类分析是数值分析学的一个分支, 它将多元理论的分析用于分类。所谓聚类, 简单地说就是从数据集中找出相似的数据并组成不同的簇, 同一簇中的对象尽可能相似, 而不同的对象尽可能相异。通过聚类, 我们能够容易地识别密集的和稀疏的区域, 发现全局的分布模式和数据属性之间的相互关系。聚类分析能作为一个独立的工作, 获得数据分布的情况, 观察每个簇的特点, 集中对特定的某些簇作出进一步的分析。在我们常用的审计分析方法中, 一般都会检查数据的偏差、异常、极端值。因此, 利用聚类分析方法, 我们可以通过与往年审计数据的比较, 分析出被审单位数据的真实性及准确性。
(二)神经网络方法
神经网络基于神经元特性的互联模型, 具有并行分布处理数据和自适应、自学习的功能。神经网络具有高度的并行结构和并行处理能力, 因而具有较快的总体数据分析处理能力, 特别适合于审计系统。被审的各个单位彼此之间有较多的联系, 因此, 在审计过程中, 计算机处理审计数据需要具备较强的并行处理能力。同时, 神经网络是通过研究系统过去的数据记录进行训练, 找出输入与输出之间的内在联系。一个经过适当训练的神经网络具有归纳全部数据的能力。因此, 利用神经网络方法, 我们可以选择神经网络中的具体算法, 对被审单位的数据进行适当训练, 归纳出全部数据。通过分析数据, 可以检查出被审单位是否存在一些舞弊、违背规律和规定的行为。
三、数据挖掘技术在计算机辅助审计中的步骤
数据挖掘技术在计算机辅助审计中一般操作分为5个步骤。
(一)确定业务对象与审计目标
在开始知识发现之前, 最先的同时也是最重要的要求就是了解数据和审计业务问题。缺少背景知识, 就没法明确要分析的问题, 不能为挖掘准备数据, 也很难正确地解释挖掘得到的结果。
(二)数据的采集
在建立模型前, 首先要导出被审单位财务管理数据。然后将数据导出后存入审计人员的电脑中, 置于审计人员自己定义的某一目录下。最后, 需要综合数据词典和数据库说明等技术文档对数据的含义, 对审计业务、审计业务流程的理解等方面的认知情况, 对数据产生全面深入的认识。分析数据是找到与要分析的主题相关的数据表和数据字段, 预测对分析结果影响较大的数据。在分析的基础上, 为建立模型选择变量、选择记录, 并将数据进行适当的变换, 使之成为适合于数据挖掘的形式。数据变换可能涉及数据标准化, 即将属性数据按比例缩放, 使之落入一个小的特定区间。
(三)数据的整理及准备
由于数据可能是不完全的、有噪声的、随机的, 有复杂的数据结构,所以要对数据进行初步的整理, 清洗不完全的数据, 做初步的描述分析,选择与数据挖掘有关的变量, 或者转换变量。
(四)建立模型
建立模型是一个反复的过程, 需要根据分析主题和数据情况来考虑用哪一种孤立点分析方法对要解决的问题最有效, 有时需要根据实际情况, 在已有的挖掘算法基础上, 结合各类算法的优点, 形成新的改进算法。而且, 在数据挖掘过程, 并不是写好算法后剩下的一切就可以自动完成。任何一个模型都需要人员的参与, 不仅是设计人员, 同时也要包括经验丰富的审计人员。对建立好的模型要进行试用, 由对被审单位业务熟悉的审计人员对挖掘结果进行评价。
(五)评价和解释结果
挖掘工具常提供可视化的工具展现挖掘结果,最后要对该结果进行分析、评价,并合理解释挖掘的结果。结果不理想时,可以寻求别的算法,或调整挖掘算法的有关参数。挖掘结果为审计人员提供问题的线索,审计人员仍需根据线索进一步追踪检查相关资料, 落实问题。
四、结论
数据挖掘是从大量的数据中提取隐含在数据中的、先前未知的、并有潜在价值的知识的过程。数据挖掘的许多知识对于审计工作来说未必全部都是有用的,然而数据挖掘主要用于发现一些异常的数据和行为, 这些信息通常是审计工作中需要特别注意的重点。对于一般被审单位, 我们都可以使用具体的数据挖掘技术来检查一些舞弊、违背规律和规定的行为,以达到利用数据挖掘完成审计工作的功能,大大降低了审计风险。
参考文献:
[1]朱艺华.面向计算机审计的移动数据挖掘服务研究[J] .计算机系统应用, 2006, 12(3) :39- 42.
[2] 陈文伟.数据仓库与数据挖掘教程[M] .北京: 清华大学出版社,2006
[3] 孙吉贵,刘杰,赵连宇. 聚类算法研究[J]. 软件学报,2008,19(1):48-61.
关键词:计算机辅助审计 数据挖掘 聚类分析
中圖分类号:TD327.3 文献标识码:A 文章编号:1009-914X(2013)29-259-01
计算机辅助审计技术大大地提高完成审计任务的效率。随着数据库管理系统和先进快速的数据采集技术的广泛应用, 被审单位的数据积累量也迅速增长。被审单位提供的大量数据中涵盖着极其丰富的信息。依靠传统的数据检索查询机制和统计分析方法来对被审计单位经济活动产生的电子数据来分析被审单位的经济活动情况是非常困难的。
数据挖掘等面向分析决策的计算机技术应运而生, 而且发展很快。在审计系统中采用数据挖掘技术可为现代化审计提供新的思路和方法, 可以大大地提高审计质量。
一、数据挖掘概述
数据挖掘指的是从大型数据库或大量的数据中提取出新的人们感兴趣的、隐含的、先前未知的、对决策有潜在价值的知识的一种技术。在人工智能领域, 这种知识发现被归为归纳学习的一种。
数据挖掘综合了各个学科技术, 有很多的功能,主要功能有以下几点:1、关联分析。关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的取值之间重复出现而且概率很高时, 就存在某种关联, 可以建立起这些关联项的关联规则。2、聚类。识别出分析对象内在的规则, 按照这些规则把对象分成若干类。3、时序模式。通过时间序列搜索出重复发生概率较高的模式,强调时间序列的影响。4、分类。按照分析对象的属性、特征, 建立不同的组类来描述事物。5、偏差检测。对分析对象的少数的、极端的特例的描述, 揭示内在的原因。6、预测。把握分析对象发展规律, 对未来的趋势做出预见。
需要注意的是, 数据挖掘的各项功能并不是独立存在的, 而是在数据挖掘中互相联系, 发挥作用。
二、数据挖掘在审计中的应用
针对审计系统中数据的特点, 包括数据的存储量、数据结构等特点, 可以从众多数据挖掘方法中选择2 种方法在计算机辅助审计系统中进行应用。
(一) 聚类分析方法
聚类分析是数值分析学的一个分支, 它将多元理论的分析用于分类。所谓聚类, 简单地说就是从数据集中找出相似的数据并组成不同的簇, 同一簇中的对象尽可能相似, 而不同的对象尽可能相异。通过聚类, 我们能够容易地识别密集的和稀疏的区域, 发现全局的分布模式和数据属性之间的相互关系。聚类分析能作为一个独立的工作, 获得数据分布的情况, 观察每个簇的特点, 集中对特定的某些簇作出进一步的分析。在我们常用的审计分析方法中, 一般都会检查数据的偏差、异常、极端值。因此, 利用聚类分析方法, 我们可以通过与往年审计数据的比较, 分析出被审单位数据的真实性及准确性。
(二)神经网络方法
神经网络基于神经元特性的互联模型, 具有并行分布处理数据和自适应、自学习的功能。神经网络具有高度的并行结构和并行处理能力, 因而具有较快的总体数据分析处理能力, 特别适合于审计系统。被审的各个单位彼此之间有较多的联系, 因此, 在审计过程中, 计算机处理审计数据需要具备较强的并行处理能力。同时, 神经网络是通过研究系统过去的数据记录进行训练, 找出输入与输出之间的内在联系。一个经过适当训练的神经网络具有归纳全部数据的能力。因此, 利用神经网络方法, 我们可以选择神经网络中的具体算法, 对被审单位的数据进行适当训练, 归纳出全部数据。通过分析数据, 可以检查出被审单位是否存在一些舞弊、违背规律和规定的行为。
三、数据挖掘技术在计算机辅助审计中的步骤
数据挖掘技术在计算机辅助审计中一般操作分为5个步骤。
(一)确定业务对象与审计目标
在开始知识发现之前, 最先的同时也是最重要的要求就是了解数据和审计业务问题。缺少背景知识, 就没法明确要分析的问题, 不能为挖掘准备数据, 也很难正确地解释挖掘得到的结果。
(二)数据的采集
在建立模型前, 首先要导出被审单位财务管理数据。然后将数据导出后存入审计人员的电脑中, 置于审计人员自己定义的某一目录下。最后, 需要综合数据词典和数据库说明等技术文档对数据的含义, 对审计业务、审计业务流程的理解等方面的认知情况, 对数据产生全面深入的认识。分析数据是找到与要分析的主题相关的数据表和数据字段, 预测对分析结果影响较大的数据。在分析的基础上, 为建立模型选择变量、选择记录, 并将数据进行适当的变换, 使之成为适合于数据挖掘的形式。数据变换可能涉及数据标准化, 即将属性数据按比例缩放, 使之落入一个小的特定区间。
(三)数据的整理及准备
由于数据可能是不完全的、有噪声的、随机的, 有复杂的数据结构,所以要对数据进行初步的整理, 清洗不完全的数据, 做初步的描述分析,选择与数据挖掘有关的变量, 或者转换变量。
(四)建立模型
建立模型是一个反复的过程, 需要根据分析主题和数据情况来考虑用哪一种孤立点分析方法对要解决的问题最有效, 有时需要根据实际情况, 在已有的挖掘算法基础上, 结合各类算法的优点, 形成新的改进算法。而且, 在数据挖掘过程, 并不是写好算法后剩下的一切就可以自动完成。任何一个模型都需要人员的参与, 不仅是设计人员, 同时也要包括经验丰富的审计人员。对建立好的模型要进行试用, 由对被审单位业务熟悉的审计人员对挖掘结果进行评价。
(五)评价和解释结果
挖掘工具常提供可视化的工具展现挖掘结果,最后要对该结果进行分析、评价,并合理解释挖掘的结果。结果不理想时,可以寻求别的算法,或调整挖掘算法的有关参数。挖掘结果为审计人员提供问题的线索,审计人员仍需根据线索进一步追踪检查相关资料, 落实问题。
四、结论
数据挖掘是从大量的数据中提取隐含在数据中的、先前未知的、并有潜在价值的知识的过程。数据挖掘的许多知识对于审计工作来说未必全部都是有用的,然而数据挖掘主要用于发现一些异常的数据和行为, 这些信息通常是审计工作中需要特别注意的重点。对于一般被审单位, 我们都可以使用具体的数据挖掘技术来检查一些舞弊、违背规律和规定的行为,以达到利用数据挖掘完成审计工作的功能,大大降低了审计风险。
参考文献:
[1]朱艺华.面向计算机审计的移动数据挖掘服务研究[J] .计算机系统应用, 2006, 12(3) :39- 42.
[2] 陈文伟.数据仓库与数据挖掘教程[M] .北京: 清华大学出版社,2006
[3] 孙吉贵,刘杰,赵连宇. 聚类算法研究[J]. 软件学报,2008,19(1):48-61.