基于大数据背景下的社会审计探索

来源 :企业科技与发展 | 被引量 : 0次 | 上传用户:anabaow1a1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】目前,我国审计领域的大数据技术和方法仅停留在理论上的呼吁与倡导层面,社会审计亟待运用科学的大数据分析方法创新现有审计分析思维,以适应海量数据的持续增长。文章应用最流行的大数据分析语言和成熟的统计分析、数据挖掘算法,为审计业务部门提供探索性的数据分析思路,为审计数据分析的拓展做出贡献。
  【关键词】统计模型;大数据;数据可视化
  【中图分类号】F239 【文献标识码】A 【文章编号】1674-0688(2018)07-0033-03
  1 目的和意义
  伴随国家审计大数据的逐渐形成,传统审计的思维方式和数据分析方法成为现出效率低、范围窄的弊端,探索大数据环境下的审计方法已是当务之急。随着云计算、移动互联网等新技术的不断推广,全球社会经济发展迎来了新机遇和新挑战,大数据时代的来临,不仅是体量的扩充,更是数据思维的转变,面对因数据思维转变所带来的分析模式及分析要求的变化,审计人员需应时而变以适应大数据导致的新变革。
  2 使用的软件及研究方法介绍
  本文主要使用R语言处理数据。一方面,由于被审计单位多样,数据标准不一,所以审计人员必须做大量的数据处理和清洗工作(统称审计预处理),而R语言对数据处理的强大性能可以满足多样的审计预处理需求。此外,审计预处理往往需要多个步骤,审计人员在数据库中保存为中间表的传统做法对大数据表进行操作时,不仅占用存储空间,效率也较低,而R语言可以通过多种形式灵活保存中间结果,十分快捷、方便。另一方面,R语言具备强大的数据可视化功能,被公认为行业中的佼佼者,可以满足一般图形展示要求。对于高级数据图形展示,会用到gplot2数据包,其理念是将绘图与数据分离,以图层作图的理念,并把常见的统计变换融入绘图中,可以创建优雅、信息丰富、定制化的图形。
  3 样本的选择实证分析
  3.1 对A市高速公路数据的描述
  通过对A市高速现场的各个路口采样,我们对A市高速公路的各个收费站出现的问题数进行分类与汇总,首先绘制箱线图(如图1所示),直观明了地表明在某一方面表现极其异常的收费站名称。其次可以将各收费站按照其所属中心进行汇总,绘制星图,不仅可以观察与比较各个所属中心的表现情况,还可以直观地看到各个所属中心在不同问题方面的表现情况。此外,对于不同货车车型在不同时间段内的超限比率进行分析时,我们也可以使用箱线图(如图2所示)。
  由图1可知,该收费站在入口大客车出口变小客车问题上极为异常,需要重点检查与加强管理。由图2的雷达图我们可以直观地了解到所属中心为1号、4号、10号、18号、19号、22号、24号、28号、30号、40号、50号的问题很少,而26号问题最多,具体又可以表现为入口货车出口变客车、车型货车变客车及车型大客车变小客车问题较为严重,23号所属中心只是入口货车出口变客车问题严重。
  对24个行车时段进行了聚合,按照1~6、7~12、13~18、19~24时段分为深夜、上午、下午和晚上4个分类变量。由此对某月份所有超载记录的货车进行了箱线图绘画(如图3所示),并在途中显示了各个分类下的均值点,可以看到货车15号的超限比率最高,而所有车型都是在深夜超限率最高,这也对高速部门整治有了精确方向。
  散点图分析时,我们选取其中某个收费站某一天(2月27日)的数据,分车型画出收费与里程关系的散点图(如图4所示),拟合曲线并将置信区间设置为90%,追踪具体到车牌号的异常值的信息(如图5所示)。
  从图4中可以看出1、2、3、4类车型拟合曲线最好,因其代表车型为客车,是按照里程数计费,所以很少存在偏差,而其他车型在拟合的曲线外仍存在较多离散的点,因其代表車型为货车,收费标准不仅依据里程数,更受到载重量及是否超限的影响,而拟合曲线时仅考虑了里程数,所以拟合效果不是特别好,针对离散最为严重的紫色圆圈内的点追踪车牌后可以得到图5,不难看出车型全为大货车,经查询也发现其大都是超限所致,从而也印证了前面的说法。
  3.2 对A市高速公路数据的实证分析
  3.2.1 因子分析模型
  应用因子分析模型,对314个收费站进行降维处理:将9个变量合并为2个复合因子,且重新命名为免费问题因子和收费问题因子。根据拟合的统计公式得到了在2个因子上的得分,画出散点图(如图6所示),直观地展示出314个收费站中特别异常的收费站。根据各个收费站的年通行次数即权重,原点的大小代表了收费站的年通行量大小;蓝色深浅表示了各个收费站免费军车通行次数的等级。免费军车通行次数等级的划分标准是选取了上下四分位数和中位数为划分依据。X坐标轴代表了收费问题因子的得分大小,Y坐标轴表示了免费因子的得分。得到了问题比较多的9个收费站。收费站在坐标轴得分大于0表示该收费站的问题大于平均水平,小于0表示低于平均水平,可以看出年通行量较大的收费站收费问题更大。
  3.2.2 Kmeans模型聚类分析
  如今,信息技术飞速发展,大多数企业、机关、事业单位及其他组织的财务、业务信息早已实现了电算化,脱离了传统的纸质记录。在此背景下,审计工作也日益依赖计算机的协助。在计算机审计中,传统的查找异常、发现审计线索的方法主要有排序、筛选、查找重号、查找断号、分类、分层等。但在当下数据量越来越大、数据维度越来越复杂的情况下,许多异常数据混杂在海量的数据中,要用这些略显原始的方法将它们一一找出来,多少显得力不从心。因此,我们希望能够通过将统计方法引入审计工作中,利用统计模型对数据有一个宏观的把握,从而查出异常,进而发现审计线索。
  我们取A市高速2017年某一个月的出口收费站流水数据,共2 000余万条记录进行试验,考虑到计算机内存处理能力的限制,需要对这些数据进行压缩。于是使用R语言取其中所有超限记录,再选取出口站编号、最终车种、最终车型3个变量作为分类变量,对分得的每一类都计算其行驶里程、车货总重、通行次数,得到压缩后的数据记录约4 000条,之后采用Kmeans聚类算法进行聚类,结果如图7所示。   图7中文字表示坐标轴含义,如第一行各图的纵坐标和第一列各图的横坐标是“行驶里程”,以此规律可读出其他各图的横、纵坐标含义。图1中的圆点即压缩后的数据点,它们的颜色表示它们在Kmeans聚类算法中被归入的类别(见表1)。
  3.2.3 面板模型分析
  根据各收费站2017年的最终收费金额及总的通行次数先建立面板数据进行动态分析(如图8所示)。
  由图8可知,各收费站最终收费金额一年中整体走势较平稳,在2月份(春节期间)全部收费站收费金额均下降,纵向比较来说有几个收费站的收费金额明显高于其他收费站。这是由很多因素决定的,其中经济因素是最不容忽视的,从中我们可以看出区域经济发展的不均衡性及需要加强管理的地区。
  下面我们将各收费站2017年1年间的最终收费金额对通行次数、车货总重、行驶里程等变量进行了建模分析。
  最终收费金额=X1×通行次数;R方=39.43%。
  最终收费金额=X2×车货总重;R方=69.57%。
  最终收费金额=X2×行驶里程;R方=61.95%。
  说明通行次数每增加1次,各收费站收费平均增加X1元。其中,通行次数的变化可以解释最终收费金额变化的39.43%;车货总重的变化可以解释最终收费金额变化的69.57%;行驶里程的变化可以解释最终收费金额变化的61.59%;说明收费站的最终收费金额与车货总重关系最密切。
  4 结论与启发
  大数据时代的审计方法应该结合我国社会审计的信息化条件,一方面将传统成熟的数据分析方法继续融入审计实践中,形成面向数字化平台的海量数据分析机制,另一方面结合科学的统计数据分析方法与工具特征研究如何将这些技术应用到审计创新,为将来社会审计使用这些技术提供前期积累和准备。通过实证分析发现,年通行量较大的收费站收费问题更大,行驶里程、车货总重、通行次数3个指标都显著大于其他类别,应作为审计重点加以审查。通过面板分析发现,收费站的最终收费金额与车货总重关系最密切。收费站流量预测是一个很值得分析的问题,统计学上所提到的很多模型都可以用来对其进行预测,我们尝试过采用一些其他模型,时间问题还没有形成系统的结果,没有办法呈现。后期若条件允许,在流量预测方向上还有很多可以深入分析拓展的内容。我们对高速数据的分析,目前仅限于微观层面上,后期若结合宏观数据分析一些收费站问题出现的原因,会是一个很好的思路。
  参 考 文 献
  [1]邵松长.浅议大数据环境下企业内部审计工作的转型提升[J].财会学习,2018(11):145,147.
  [2]馬志娟,梁思源.大数据背景下政府环境责任审计监督全覆盖的路径研究[J].审计研究,2015(5):28-34.
  [3]周霞,林津翘,华峰.大数据时代企业内部审计新常态研究[J].中国内部审计,2017(3):13-17.
  [4]王茂森.大数据背景下政府审计工作的挑战及解决策略研究[J].财会学习,2018(13):168.
  [5]王昊,赵越,石楷文,等.审计方法于大数据时代的革新[J].市场周刊,2018(5):123-124.
  [责任编辑:邓进利]
其他文献
【摘 要】在全球经济一体化的趋势中,合理的管理跨度对于跨国企业具有十分重要的现实意义。文章以在华跨国企业S公司为例,通过组织结构现状和六个维度分析其分支机构的管理跨度,从管理工作的复杂度、人员的素质、员工职权的合理度和组织的协助度4个方面,建议S公司以窄为方向适当调整管理跨度。  【关键词】外企分支机构;管理跨度;组织结构  【中图分类号】F276.43;F203.9【文献标识码】A【文章编号】1
期刊
【摘 要】基于广西某特级施工集团在建项目工程安全教育的案例分析认为,工程安全教育有单向式安全教育、体验式安全教育和参与式安全教育3种形态。单向式安全教育是工程安全教育的基础,包含安全技术交底、班前安全教育、可视化安全教育等,体验式安全教育是在工程安全教育发展中的演进,参与式安全教育是工程安全教育的理想状态及方向。  【关键词】工程安全教育;形态;单向式安全教育;体验式安全教育;参与式安全教育  【
期刊
【摘 要】一个人的知识、技能和经验对于做好一份工作十分重要,但是要想在一个岗位上具有持续优异的表现,就需要其具备更加稳定和深层次的能力,这就是胜任力。胜任力自从被提出,就备受人们关注且被广泛研究。文章简述了岗位胜任力的内容和重要意义,并从博弈思维的角度提供了提升胜任岗位力的一些思考和建议。  【关键词】胜任力;博弈;思维  【中图分类号】G726 【文献标识码】A 【文章编号】1674-0688(
期刊
【摘 要】随着经济社会的发展,混凝土作为一种抗压强度高但脆性大、抗拉强度低的材料,已经无法满足建设要求,因此在混凝土中掺入橡胶颗粒和钢纤维成为目前国内外的研究焦点之一。文章介绍的试验主要针对混凝土在结构中的受力形式,设置了2种力学性能测试——混凝土立方体抗压强度测试和劈裂抗拉强度测试。试验结果表明,随着橡胶颗粒掺量的增加,混凝土的力学性能呈下降趋势,脆性也有所下降;随着钢纤维掺入橡胶混凝土中,混凝
期刊
【摘 要】利用Excel工具、回归软件对电池剩余放电时间进行讨论,从经济、有效等方面出发,通过函数拟合、数据筛选、作图等,构建出拟合精度高、可决系数高的放电曲线的初等模型,进而对电池剩余放电时间进行预测。先应用Excel工具对给定的9组数据进行函数拟合,得出了9条放电曲线,接着根据MRE定义算出9条放电曲线的平均相对误差,并以此求出当电压为9.8 V时,30 A、40 A、50 A、60 A、70
期刊
【摘 要】在桂北地区生长着一种野生甜茶,有着广大的市场前景。目前,该地区甜茶的种植仍是以传统生产格局为主,质量和产量都极不稳定,导致经济效益下滑,环境污染加剧。文章就如何改变桂北地区甜茶种植现状及如何实现桂北地区甜茶的可持续发展提供一些思路。  【关键词】桂北地区;甜茶叶;标准化种植;可持续发展  【中图分类号】S571.1 【文献标识码】A 【文章编号】1674-0688(2017)06-000
期刊
【摘 要】党的十八大以来,以习近平同志为总书记的党中央,胸怀强烈的时代感、使命感和责任感,提出了一系列新的重要思想。其中,全面从严治党的战略思想,为全面推进党的建设伟大事业提供了根本遵循和行动指南。基层党组织担负着团结带领广大员工实现单位改革发展、和谐稳定的重要职责,是单位党建工作的落脚点,基层党组织自身建设和战斗力发挥得如何,对推动单位各项工作发挥着积极促进作用,并直接关系着单位目标的实现。文章
期刊
【摘 要】在大学生整体就业形势不容乐观的状况下,大学生自身的就业胜任力不足是造成大学生就业困难的一个主要内因。文章以广西电力职业技术学院物流管理专业为例,通过对大学生就业胜任力模型进行统计和分析,并从胜任力的角度对高职物流管理专业教学模式和教学方法等方面改革進行了探讨,旨在提升大学生的就业能力,更好地促进高职毕业生顺利就业。  【关键词】物流管理专业;就业胜任力;教学模式;改革  【中图分类号】G
期刊
【摘 要】解决“三农”问题是当前我国经济发展的重点,近3年来国家不断鼓励农村发展三产融合,但真正落地并取得一定成就的农村成功案例较少。文章通过对自发形成产业融合已有13年历史的潜江市现状进行深入研究发现,我国并非所有农村区域都适合发展三产融合。区域位置、人文环境、特色产业和基础设施建设情况都对地区是否能够形成三产融合产生重要的影响。单个经营主体已不能满足我国农村产业融合的现状,多元主体共同经营已成
期刊
【摘 要】佛山作为中国重要的制造基地之一,曾经创下了“佛山制造”的辉煌历史。近年来,传统制造业面临互联网和电商的严重冲击,消费者的消费倾向不断变化,使得佛山制造业的转型升级迫在眉睫。实现制造业的成功转型,互联网和大数据是必不可少的重要手段,工业4.0将成为传统制造企业打造智能工厂的标杆。工业4.0背景下的市场出现了新的态势,佛山市一些制造企业通过对大数据的运用,从而得出相应数据,辅助决策,指导生产
期刊