论文部分内容阅读
【摘 要】目前,我国审计领域的大数据技术和方法仅停留在理论上的呼吁与倡导层面,社会审计亟待运用科学的大数据分析方法创新现有审计分析思维,以适应海量数据的持续增长。文章应用最流行的大数据分析语言和成熟的统计分析、数据挖掘算法,为审计业务部门提供探索性的数据分析思路,为审计数据分析的拓展做出贡献。
【关键词】统计模型;大数据;数据可视化
【中图分类号】F239 【文献标识码】A 【文章编号】1674-0688(2018)07-0033-03
1 目的和意义
伴随国家审计大数据的逐渐形成,传统审计的思维方式和数据分析方法成为现出效率低、范围窄的弊端,探索大数据环境下的审计方法已是当务之急。随着云计算、移动互联网等新技术的不断推广,全球社会经济发展迎来了新机遇和新挑战,大数据时代的来临,不仅是体量的扩充,更是数据思维的转变,面对因数据思维转变所带来的分析模式及分析要求的变化,审计人员需应时而变以适应大数据导致的新变革。
2 使用的软件及研究方法介绍
本文主要使用R语言处理数据。一方面,由于被审计单位多样,数据标准不一,所以审计人员必须做大量的数据处理和清洗工作(统称审计预处理),而R语言对数据处理的强大性能可以满足多样的审计预处理需求。此外,审计预处理往往需要多个步骤,审计人员在数据库中保存为中间表的传统做法对大数据表进行操作时,不仅占用存储空间,效率也较低,而R语言可以通过多种形式灵活保存中间结果,十分快捷、方便。另一方面,R语言具备强大的数据可视化功能,被公认为行业中的佼佼者,可以满足一般图形展示要求。对于高级数据图形展示,会用到gplot2数据包,其理念是将绘图与数据分离,以图层作图的理念,并把常见的统计变换融入绘图中,可以创建优雅、信息丰富、定制化的图形。
3 样本的选择实证分析
3.1 对A市高速公路数据的描述
通过对A市高速现场的各个路口采样,我们对A市高速公路的各个收费站出现的问题数进行分类与汇总,首先绘制箱线图(如图1所示),直观明了地表明在某一方面表现极其异常的收费站名称。其次可以将各收费站按照其所属中心进行汇总,绘制星图,不仅可以观察与比较各个所属中心的表现情况,还可以直观地看到各个所属中心在不同问题方面的表现情况。此外,对于不同货车车型在不同时间段内的超限比率进行分析时,我们也可以使用箱线图(如图2所示)。
由图1可知,该收费站在入口大客车出口变小客车问题上极为异常,需要重点检查与加强管理。由图2的雷达图我们可以直观地了解到所属中心为1号、4号、10号、18号、19号、22号、24号、28号、30号、40号、50号的问题很少,而26号问题最多,具体又可以表现为入口货车出口变客车、车型货车变客车及车型大客车变小客车问题较为严重,23号所属中心只是入口货车出口变客车问题严重。
对24个行车时段进行了聚合,按照1~6、7~12、13~18、19~24时段分为深夜、上午、下午和晚上4个分类变量。由此对某月份所有超载记录的货车进行了箱线图绘画(如图3所示),并在途中显示了各个分类下的均值点,可以看到货车15号的超限比率最高,而所有车型都是在深夜超限率最高,这也对高速部门整治有了精确方向。
散点图分析时,我们选取其中某个收费站某一天(2月27日)的数据,分车型画出收费与里程关系的散点图(如图4所示),拟合曲线并将置信区间设置为90%,追踪具体到车牌号的异常值的信息(如图5所示)。
从图4中可以看出1、2、3、4类车型拟合曲线最好,因其代表车型为客车,是按照里程数计费,所以很少存在偏差,而其他车型在拟合的曲线外仍存在较多离散的点,因其代表車型为货车,收费标准不仅依据里程数,更受到载重量及是否超限的影响,而拟合曲线时仅考虑了里程数,所以拟合效果不是特别好,针对离散最为严重的紫色圆圈内的点追踪车牌后可以得到图5,不难看出车型全为大货车,经查询也发现其大都是超限所致,从而也印证了前面的说法。
3.2 对A市高速公路数据的实证分析
3.2.1 因子分析模型
应用因子分析模型,对314个收费站进行降维处理:将9个变量合并为2个复合因子,且重新命名为免费问题因子和收费问题因子。根据拟合的统计公式得到了在2个因子上的得分,画出散点图(如图6所示),直观地展示出314个收费站中特别异常的收费站。根据各个收费站的年通行次数即权重,原点的大小代表了收费站的年通行量大小;蓝色深浅表示了各个收费站免费军车通行次数的等级。免费军车通行次数等级的划分标准是选取了上下四分位数和中位数为划分依据。X坐标轴代表了收费问题因子的得分大小,Y坐标轴表示了免费因子的得分。得到了问题比较多的9个收费站。收费站在坐标轴得分大于0表示该收费站的问题大于平均水平,小于0表示低于平均水平,可以看出年通行量较大的收费站收费问题更大。
3.2.2 Kmeans模型聚类分析
如今,信息技术飞速发展,大多数企业、机关、事业单位及其他组织的财务、业务信息早已实现了电算化,脱离了传统的纸质记录。在此背景下,审计工作也日益依赖计算机的协助。在计算机审计中,传统的查找异常、发现审计线索的方法主要有排序、筛选、查找重号、查找断号、分类、分层等。但在当下数据量越来越大、数据维度越来越复杂的情况下,许多异常数据混杂在海量的数据中,要用这些略显原始的方法将它们一一找出来,多少显得力不从心。因此,我们希望能够通过将统计方法引入审计工作中,利用统计模型对数据有一个宏观的把握,从而查出异常,进而发现审计线索。
我们取A市高速2017年某一个月的出口收费站流水数据,共2 000余万条记录进行试验,考虑到计算机内存处理能力的限制,需要对这些数据进行压缩。于是使用R语言取其中所有超限记录,再选取出口站编号、最终车种、最终车型3个变量作为分类变量,对分得的每一类都计算其行驶里程、车货总重、通行次数,得到压缩后的数据记录约4 000条,之后采用Kmeans聚类算法进行聚类,结果如图7所示。 图7中文字表示坐标轴含义,如第一行各图的纵坐标和第一列各图的横坐标是“行驶里程”,以此规律可读出其他各图的横、纵坐标含义。图1中的圆点即压缩后的数据点,它们的颜色表示它们在Kmeans聚类算法中被归入的类别(见表1)。
3.2.3 面板模型分析
根据各收费站2017年的最终收费金额及总的通行次数先建立面板数据进行动态分析(如图8所示)。
由图8可知,各收费站最终收费金额一年中整体走势较平稳,在2月份(春节期间)全部收费站收费金额均下降,纵向比较来说有几个收费站的收费金额明显高于其他收费站。这是由很多因素决定的,其中经济因素是最不容忽视的,从中我们可以看出区域经济发展的不均衡性及需要加强管理的地区。
下面我们将各收费站2017年1年间的最终收费金额对通行次数、车货总重、行驶里程等变量进行了建模分析。
最终收费金额=X1×通行次数;R方=39.43%。
最终收费金额=X2×车货总重;R方=69.57%。
最终收费金额=X2×行驶里程;R方=61.95%。
说明通行次数每增加1次,各收费站收费平均增加X1元。其中,通行次数的变化可以解释最终收费金额变化的39.43%;车货总重的变化可以解释最终收费金额变化的69.57%;行驶里程的变化可以解释最终收费金额变化的61.59%;说明收费站的最终收费金额与车货总重关系最密切。
4 结论与启发
大数据时代的审计方法应该结合我国社会审计的信息化条件,一方面将传统成熟的数据分析方法继续融入审计实践中,形成面向数字化平台的海量数据分析机制,另一方面结合科学的统计数据分析方法与工具特征研究如何将这些技术应用到审计创新,为将来社会审计使用这些技术提供前期积累和准备。通过实证分析发现,年通行量较大的收费站收费问题更大,行驶里程、车货总重、通行次数3个指标都显著大于其他类别,应作为审计重点加以审查。通过面板分析发现,收费站的最终收费金额与车货总重关系最密切。收费站流量预测是一个很值得分析的问题,统计学上所提到的很多模型都可以用来对其进行预测,我们尝试过采用一些其他模型,时间问题还没有形成系统的结果,没有办法呈现。后期若条件允许,在流量预测方向上还有很多可以深入分析拓展的内容。我们对高速数据的分析,目前仅限于微观层面上,后期若结合宏观数据分析一些收费站问题出现的原因,会是一个很好的思路。
参 考 文 献
[1]邵松长.浅议大数据环境下企业内部审计工作的转型提升[J].财会学习,2018(11):145,147.
[2]馬志娟,梁思源.大数据背景下政府环境责任审计监督全覆盖的路径研究[J].审计研究,2015(5):28-34.
[3]周霞,林津翘,华峰.大数据时代企业内部审计新常态研究[J].中国内部审计,2017(3):13-17.
[4]王茂森.大数据背景下政府审计工作的挑战及解决策略研究[J].财会学习,2018(13):168.
[5]王昊,赵越,石楷文,等.审计方法于大数据时代的革新[J].市场周刊,2018(5):123-124.
[责任编辑:邓进利]
【关键词】统计模型;大数据;数据可视化
【中图分类号】F239 【文献标识码】A 【文章编号】1674-0688(2018)07-0033-03
1 目的和意义
伴随国家审计大数据的逐渐形成,传统审计的思维方式和数据分析方法成为现出效率低、范围窄的弊端,探索大数据环境下的审计方法已是当务之急。随着云计算、移动互联网等新技术的不断推广,全球社会经济发展迎来了新机遇和新挑战,大数据时代的来临,不仅是体量的扩充,更是数据思维的转变,面对因数据思维转变所带来的分析模式及分析要求的变化,审计人员需应时而变以适应大数据导致的新变革。
2 使用的软件及研究方法介绍
本文主要使用R语言处理数据。一方面,由于被审计单位多样,数据标准不一,所以审计人员必须做大量的数据处理和清洗工作(统称审计预处理),而R语言对数据处理的强大性能可以满足多样的审计预处理需求。此外,审计预处理往往需要多个步骤,审计人员在数据库中保存为中间表的传统做法对大数据表进行操作时,不仅占用存储空间,效率也较低,而R语言可以通过多种形式灵活保存中间结果,十分快捷、方便。另一方面,R语言具备强大的数据可视化功能,被公认为行业中的佼佼者,可以满足一般图形展示要求。对于高级数据图形展示,会用到gplot2数据包,其理念是将绘图与数据分离,以图层作图的理念,并把常见的统计变换融入绘图中,可以创建优雅、信息丰富、定制化的图形。
3 样本的选择实证分析
3.1 对A市高速公路数据的描述
通过对A市高速现场的各个路口采样,我们对A市高速公路的各个收费站出现的问题数进行分类与汇总,首先绘制箱线图(如图1所示),直观明了地表明在某一方面表现极其异常的收费站名称。其次可以将各收费站按照其所属中心进行汇总,绘制星图,不仅可以观察与比较各个所属中心的表现情况,还可以直观地看到各个所属中心在不同问题方面的表现情况。此外,对于不同货车车型在不同时间段内的超限比率进行分析时,我们也可以使用箱线图(如图2所示)。
由图1可知,该收费站在入口大客车出口变小客车问题上极为异常,需要重点检查与加强管理。由图2的雷达图我们可以直观地了解到所属中心为1号、4号、10号、18号、19号、22号、24号、28号、30号、40号、50号的问题很少,而26号问题最多,具体又可以表现为入口货车出口变客车、车型货车变客车及车型大客车变小客车问题较为严重,23号所属中心只是入口货车出口变客车问题严重。
对24个行车时段进行了聚合,按照1~6、7~12、13~18、19~24时段分为深夜、上午、下午和晚上4个分类变量。由此对某月份所有超载记录的货车进行了箱线图绘画(如图3所示),并在途中显示了各个分类下的均值点,可以看到货车15号的超限比率最高,而所有车型都是在深夜超限率最高,这也对高速部门整治有了精确方向。
散点图分析时,我们选取其中某个收费站某一天(2月27日)的数据,分车型画出收费与里程关系的散点图(如图4所示),拟合曲线并将置信区间设置为90%,追踪具体到车牌号的异常值的信息(如图5所示)。
从图4中可以看出1、2、3、4类车型拟合曲线最好,因其代表车型为客车,是按照里程数计费,所以很少存在偏差,而其他车型在拟合的曲线外仍存在较多离散的点,因其代表車型为货车,收费标准不仅依据里程数,更受到载重量及是否超限的影响,而拟合曲线时仅考虑了里程数,所以拟合效果不是特别好,针对离散最为严重的紫色圆圈内的点追踪车牌后可以得到图5,不难看出车型全为大货车,经查询也发现其大都是超限所致,从而也印证了前面的说法。
3.2 对A市高速公路数据的实证分析
3.2.1 因子分析模型
应用因子分析模型,对314个收费站进行降维处理:将9个变量合并为2个复合因子,且重新命名为免费问题因子和收费问题因子。根据拟合的统计公式得到了在2个因子上的得分,画出散点图(如图6所示),直观地展示出314个收费站中特别异常的收费站。根据各个收费站的年通行次数即权重,原点的大小代表了收费站的年通行量大小;蓝色深浅表示了各个收费站免费军车通行次数的等级。免费军车通行次数等级的划分标准是选取了上下四分位数和中位数为划分依据。X坐标轴代表了收费问题因子的得分大小,Y坐标轴表示了免费因子的得分。得到了问题比较多的9个收费站。收费站在坐标轴得分大于0表示该收费站的问题大于平均水平,小于0表示低于平均水平,可以看出年通行量较大的收费站收费问题更大。
3.2.2 Kmeans模型聚类分析
如今,信息技术飞速发展,大多数企业、机关、事业单位及其他组织的财务、业务信息早已实现了电算化,脱离了传统的纸质记录。在此背景下,审计工作也日益依赖计算机的协助。在计算机审计中,传统的查找异常、发现审计线索的方法主要有排序、筛选、查找重号、查找断号、分类、分层等。但在当下数据量越来越大、数据维度越来越复杂的情况下,许多异常数据混杂在海量的数据中,要用这些略显原始的方法将它们一一找出来,多少显得力不从心。因此,我们希望能够通过将统计方法引入审计工作中,利用统计模型对数据有一个宏观的把握,从而查出异常,进而发现审计线索。
我们取A市高速2017年某一个月的出口收费站流水数据,共2 000余万条记录进行试验,考虑到计算机内存处理能力的限制,需要对这些数据进行压缩。于是使用R语言取其中所有超限记录,再选取出口站编号、最终车种、最终车型3个变量作为分类变量,对分得的每一类都计算其行驶里程、车货总重、通行次数,得到压缩后的数据记录约4 000条,之后采用Kmeans聚类算法进行聚类,结果如图7所示。 图7中文字表示坐标轴含义,如第一行各图的纵坐标和第一列各图的横坐标是“行驶里程”,以此规律可读出其他各图的横、纵坐标含义。图1中的圆点即压缩后的数据点,它们的颜色表示它们在Kmeans聚类算法中被归入的类别(见表1)。
3.2.3 面板模型分析
根据各收费站2017年的最终收费金额及总的通行次数先建立面板数据进行动态分析(如图8所示)。
由图8可知,各收费站最终收费金额一年中整体走势较平稳,在2月份(春节期间)全部收费站收费金额均下降,纵向比较来说有几个收费站的收费金额明显高于其他收费站。这是由很多因素决定的,其中经济因素是最不容忽视的,从中我们可以看出区域经济发展的不均衡性及需要加强管理的地区。
下面我们将各收费站2017年1年间的最终收费金额对通行次数、车货总重、行驶里程等变量进行了建模分析。
最终收费金额=X1×通行次数;R方=39.43%。
最终收费金额=X2×车货总重;R方=69.57%。
最终收费金额=X2×行驶里程;R方=61.95%。
说明通行次数每增加1次,各收费站收费平均增加X1元。其中,通行次数的变化可以解释最终收费金额变化的39.43%;车货总重的变化可以解释最终收费金额变化的69.57%;行驶里程的变化可以解释最终收费金额变化的61.59%;说明收费站的最终收费金额与车货总重关系最密切。
4 结论与启发
大数据时代的审计方法应该结合我国社会审计的信息化条件,一方面将传统成熟的数据分析方法继续融入审计实践中,形成面向数字化平台的海量数据分析机制,另一方面结合科学的统计数据分析方法与工具特征研究如何将这些技术应用到审计创新,为将来社会审计使用这些技术提供前期积累和准备。通过实证分析发现,年通行量较大的收费站收费问题更大,行驶里程、车货总重、通行次数3个指标都显著大于其他类别,应作为审计重点加以审查。通过面板分析发现,收费站的最终收费金额与车货总重关系最密切。收费站流量预测是一个很值得分析的问题,统计学上所提到的很多模型都可以用来对其进行预测,我们尝试过采用一些其他模型,时间问题还没有形成系统的结果,没有办法呈现。后期若条件允许,在流量预测方向上还有很多可以深入分析拓展的内容。我们对高速数据的分析,目前仅限于微观层面上,后期若结合宏观数据分析一些收费站问题出现的原因,会是一个很好的思路。
参 考 文 献
[1]邵松长.浅议大数据环境下企业内部审计工作的转型提升[J].财会学习,2018(11):145,147.
[2]馬志娟,梁思源.大数据背景下政府环境责任审计监督全覆盖的路径研究[J].审计研究,2015(5):28-34.
[3]周霞,林津翘,华峰.大数据时代企业内部审计新常态研究[J].中国内部审计,2017(3):13-17.
[4]王茂森.大数据背景下政府审计工作的挑战及解决策略研究[J].财会学习,2018(13):168.
[5]王昊,赵越,石楷文,等.审计方法于大数据时代的革新[J].市场周刊,2018(5):123-124.
[责任编辑:邓进利]