基于Python的随机森林算法在电网企业人力资源审计中的应用研究

来源 :中国内部审计 | 被引量 : 0次 | 上传用户:mmssbb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]大数据的运用不仅改变了电网企业的发展和管理模式,也给内部审计带来了前所未有的机遇与挑战。本文介绍了在审计大数据的背景下,基于Python的随机森林算法在电网企业人力资源审计中的应用方法,进一步提高内部审计管理的科学化水平,以提升内部审计的工作质量和效率。
  [关键词]人力资源审计   随机森林算法   Python
  一、引言
  電网企业作为关系国民经济命脉和国家能源安全的骨干企业,有力地支撑着国家能源体系。在社会经济和科学技术不断发展,政策环境不断变化,电力体制改革不断深化的大背景下,以国家电网公司为代表的电网企业提出了要建设运营好坚强智能电网和泛在电力物联网的目标,即要充分运用移动互联网、人工智能等现代信息技术,实现电力系统各环节万物互联、人机交互的智慧服务系统。这标志着电网企业的大数据时代已经到来,“电网+大数据”的发展模式,成为电网企业应对建设泛在电力物联网这一新需求的唯一出路。电网企业在生产、经营过程中会接触并产生海量数据,利用合适的工具对这些数据进行挖掘和分析,一方面可以帮助电网企业适应电力市场的发展,另一方面也可帮助电网企业规范内部管理,进一步提升管理质量和效果。而如何将上述海量、散落且无序的数据剥离、整理、归类、分析,以便找到数据间的规律和联系,进而发现审计线索,发挥大数据全面覆盖的优势,是内部审计人员目前亟待解决的课题,现以电网企业人力资源审计为例来作一研究。
  二、审计数据采集
  基于大数据的审计方式不同于传统方式,主要的数据获取方式是通过各类信息平台或系统主动、实时地获取被审计单位的业务数据。这种方式相对于被动地依靠被审计单位提供审计数据,再利用其他证据进行核实的传统方式而言,数据的真实性、完整性、实时性和审计工作效率等均得到明显提升。
  (一)数据来源
  在对电网企业实施人力资源审计时,需要获取的数据按照来源可分为内部数据和外部数据。内部数据是指从电网企业自建的系统中获取的数据及被审计单位提供的数据。外部数据是指从外部机构如银行、政府、客户等渠道获取的数据。按照数据类别可分为结构化数据和非结构化数据,结构化数据主要指能够用数据或同一结构表示的数据,如数字、符号等,而各类文档、图片、影像,如被审计单位的人事任免文件、活动通知、各部门自行编制的登记资料等则称为非结构化数据。在实施电网企业人力资源审计时,获取的有效数据中内部数据及非结构化数据占比较高,审计人员需要利用合适的数据处理工具如Excel、Oracle数据库等将数据进行清洗、转化后再进一步利用。
  (二)数据获取方式
  实施电网企业人力资源专项审计时,审计人员需要获取的数据主要有人资、财务、工会、后勤等专业的业务数据和管理数据。主要获取方式有:直接复制数据;通过中间文件采集数据;通过开放式数据互联方式采集数据;通过专用模板采集数据;通过互联网采集数据。实际工作中,使用较多的是直接复制数据和通过开放式数据互联方式采集数据这两种方法。
  审计数据来源日益丰富化、数据类型愈发多元化、获取方式逐渐多样化促使审计人员不断提升信息化审计能力,在追求数据的完整性、使用数据的高效性上下功夫,同时也在推动审计与信息通信等其他学科的融合。
  三、随机森林算法的应用
  决策树(Decision Trees)算法是一种根据归纳原理从数据集中抽取规则并构建树状预测模型的机器学习方法。随机森林(Random Forest)算法最早由美国统计学家Leo Breiman和Adele Culter在2001年提出,通过自助重复采样,从原始训练样本集中重复随机抽取k个样本生成新的训练样本集合,然后根据自主样本集生成k个决策树组成随机森林,是一种以决策树为基学习器的集成学习方法,包含了多个决策树的分类器,输出结果是由每一个决策树投票或者平均得到,即将投票次数最多的类别或输出结果平均值指定为最终的输出结果。
  该算法解决了单个决策树泛化能力弱的缺点,较其他算法而言具有预测结果更准确、运行简单高效、可处理大量多类型数据、训练速度快、可平衡误差等优点。将随机森林算法应用到电网企业内部审计工作中,可用于对已知的审计数据进行整合分析,也可用于审计预测。这不仅可以发挥审计大数据全覆盖的优势,还可以提高审计效率、降低审计风险。将随机森林算法应用于电网企业人力资源审计中,主要有以下几个步骤:
  步骤一:明确审计内容
  电网企业人力资源审计主要包括人力资源基础管理、管理决策、干部管理、用工管理、人工成本管理、教育培训管理、绩效管理、历史遗留问题整改情况8个方面的内容。在运用随机森林算法进行数据挖掘之前,应根据审计需要,首先需明确此次审计疑点预测的主题内容,即具体需要核查的问题,如:虚列教育培训经费、主业和集体企业相互承担工资、存在在职不在岗人员等。
  步骤二:采集审计数据
  采集与被审计单位人力资源管理活动相关的各类数据。包括从企业自建的系统中获取数据,如从ERP系统中导出员工花名册、工资核算明细、年度绩效考核结果、员工异动情况等,主要采取直接复制数据的方法进行采集。有时也需要从外部机构获取数据,如社会保险明细等,这部分数据则需要通过开放式数据互联方式或通过互联网进行采集。
  步骤三:进行数据分析
  首先,根据审计内容和数据特点,设定若干变量,这些变量应与审计疑点预测的主题内容相关。如需预测员工离职率时,设定的变量可为:(1)入职时间;(2)年均薪酬水平;(3)近5年绩效考评结果;(4)最高学历水平;(5)近5年是否升职等。设定的变量可能是定性的数据,也可能是定量的数据,但最关键的是设定变量应与需预测的结果紧密相关,变量的关联度越高,预测结果越准确。其次,对数据进行整体分析,找出变量和预测结果的关系,一般关系为正相关或负相关。如薪酬水平越低的员工离职率越高,最高学历水平越高的员工离职率越高,近5年未能升职的员工比已升职的员工离职率高等,即明确变量与审计内容间的具体关系。   步骤四:建立审计模型
  根据审计内容的业务逻辑和变量间的勾稽关系建立数字化审计模型。业务逻辑和数据勾稽关系往往是具体的业务之间固定关系的直接反应,如汇总关系、比例关系、特定的计算方法等。利用Python、SQL Server、Excel高级函数等数据处理工具对将要分析的问题做出概括、抽象表达,进而建立数据分析模型,以便对特定问题进行核查。
  步骤五:训练模型与数据预测
  利用已知数据对步骤四中建立的模型进行训练,训练后的审计模型可运用在实际审计工作中,用于数据预测,如预测被审计单位出现某特定问题的概率等。由于随机森林算法是一种灵活的机器学习算法,利用以往的数据对其进行训练,通过不断更新数据库并对模型进行训练,预测结果将越来越准确。
  四、基于Python随机森林算法的应用案例
  Python是一种计算机程序设计语言,由于其易学、便于维护,并且拥有丰富的扩展库可用于完成各种高级任务,近年来成为众多用户广泛使用的语言之一,也是机器学习的首选语言。为验证随机森林算法在电网企业人力资源审计中的有效性,本文使用Python进行编程,并选择某电网企业下属某省公司2016年1月至2018年12月的人力资源管理相关数据进行实验分析。该数据集中包括员工花名册、工资核算明细、岗位异动情况等,数据量超过30万条。
  应用案例一:虚列职工教育培训费概率审计模型
  本案例拟运用基于Python的随机森林算法对被审计单位出现虚列职工教育培训费的问题的概率进行审计。首先,对原始审计数据进行初步分析,统计人均年薪水平、人员调动次数情况、员工升职情况、各单位绩效排名、各类费用支出情况等。其次,按照数据与审计内容之间的关系,设定若干个相关的变量。根据以往的审计经验,以下8个变量与虚列职工教育培训费问题有较高的相关性:(1)年底集中列支职工教育培训费,10月至12月列支金额占全年的40%以上;(2)职工教育培训费集中支付某一个人,未分别支付至相关人员账户;(3)人均薪酬水平较低,低于该电网企业人均薪资水平;(4)频繁更换人资部负责人、培训专责,频率高于平均更换频率;(5)存在超标准列支培训费的情况;(6)存在超范围列支培训费的情况;(7)被审计单位年度考核排名情况,近3个年度考核排名在全省后30%;(8)以前年度审计中发现过被审计单位或其下属机构存在虚列职工教育培训费的问题。之后,利用Excel软件将原始数据进行清理、转换,按下表的取值范围转换成相应的数字,如“0”“1”“2”等,如表1所示。
  如图1所示,模型一(对应案例一)的运行结果用“risk level”表示,其中,“0”代表被审计单位虚列职工教育培训费的概率较低,“1”则代表出现该问题的概率较高。将图1中的运行结果与以往的审计数据进行比对,发现运行结果(图2中“risk-output”)与以往的审计结果(图3中“risk level”)完全一致。说明模型一经训练后,可以对被审计单位出现虚列职工教育培训费的概率进行较准确的预测。
  应用案例二:在职不在岗人员审计模型
  本案例拟运用基于Python的随机森林算法对被审计单位是否存在在职不在岗人员的问题进行审计。
  首先,运用数据分析工具对被审计单位在职员工2016年1月至2018年12月间的年度绩效工资金额、升职情况、报销费用情况、年度绩效考核结果、调动情况、参加会议培训情况等进行初步统计。其次,按照数据与审计内容的关系,设定若干个相关的变量。根据以往的审计经验,以下7个变量与员工在职不在岗问题有较高的相关性:(1)审计期间年度绩效工资总额偏低,低于3万元/人/年;(2)未得到职务或职级提升、晋升,或薪档提升;(3)无差旅费、培训费等费用报销记录;(4)无岗位调动记录;(5)无参加各类会议、培训记录;(6)无参加健康类、荣誉类等各类疗休养记录;(7)门户登陆次数偏少,低于30次/人/年。利用Excel软件将原始数据进行清理、转换之后,将原始数据按下表的取值范围转换成相应的数字,如“0”“1”等,如表2所示。
  在Python中输入以下编程语句,利用上一步中转换后的数据,对此次建立的员工在职不在岗人员审计模型进行训练:
  如图4所示,模型二的运行结果用“risk level”表示,其中,运行结果为“0”代表该员工在职不在岗的可能性较低,为“1”则代表该员工在职不在岗的可能性较高。模型二的运行结果说明,本次200个样本数据中,有9名员工是在职不在岗员工的可能性较高,审计人员可进一步重点核实这9名员工的实际工作情况。
  将上图中的运行结果与已进行核实的在职不在岗人员情况进行比对,发现运行结果(图5中“risk-output”)与以往的审计结果(图6中“risk level”)完全一致,即模型二中筛选出的可疑人员经核实确认为在职不在岗人员。
  实验结论:以上两个实验结果充分说明模型一和模型二分别对于被审计单位出现虚列职工教育培训费的概率和员工是否在职不在岗的问题在运行速度及运行准确度上均表现出了良好的预测性能,两个实验都验证了随机森林算法在电网人力资源审计中的有效性。
  随机森林算法不仅训练速度快,训练结束后还可生成相应的数据库,通过不断更新数据库并对模型进行训练,可以持续提高预测准确度。在开展审计工作前,审计人员可将相关审计数据导入数据库中,利用相关模型预测是否存在特定风险或问题,为提前明确审计重点、准确把握审计方向提供了有力的数据支撑。
  五、结束语
  随着大数据的广泛运用,如何合理运用信息化手段高效地分析、处理、挖掘大數据成为实现科技强审、实现审计信息化过程中必须解决的课题。本文提出了基于Python的随机森林算法在电网企业人力资源审计中的运用方式相关研究,该方法不仅能帮助审计人员高效、精准地挖掘出隐藏在数据下的信息,进而构建更健全、高效的日常监督体系,同时也为大数据在审计中的应用技术研究提供了支持,促进了审计大数据的学术积累和实践发展。
  (作者单位:国网湖南省电力有限公司,邮政编码:410001 ,电子邮箱:[email protected]
其他文献
[摘要]金融行业信息化的生产方式、海量的业务数据、高度的风险敏感性与传统内部审计产生了代际错配、量级错配、效率错配,内部审计应运用信息化手段,重塑新思维,建构管理新框架,在大数据时代实现自我变革。  [关键词]大数据 审计 价值 方法  一、对大数据审计的认识  (一)大数据审计的“能与不能”  大数据审计可以极大提高审计质效,但大数据也有做不了、不能做的事情。  1. 能审线上不能审线下。
期刊
[摘要]随着我国经济进入高质量发展阶段,如何优化国有企业运营管理成为研究重点,需要国家审计、内部审计和社会审计的整合协同。本文以苏州苏高新集团有限公司为研究对象,从国家审计、内部审计和社会审计协同机制的内涵、理论基础、问题及解决建议分别进行阐述,提出构建和完善国家审计、内部审计以及社会审计协同机制,优化审计资源组合,形成审计监督合力的新举措。  [关键词]国家审计 内部审计 社会审计 全覆盖
期刊
[摘要]本文基于1995—2018年时间序列数据,分别使用向量自回归模型、脉冲响应函数和方差分解法来研究我国研发投资、科技创新与经济增长之间的协调度、动态关系和影响贡献度。  [关键词]研发投资 科技创新 经济增长 动态关系  本文系国家自然科学基金资助项目:“生产—消费”视角下我国水足迹空间异质性研究(项目编号:41401634)  一、引言  研发(Research and Develo
期刊
中国建筑股份有限公司(以下简称中建股份)审计部经济责任审计团队(以下简称团队)紧紧围绕打造世界一流企业目标,不断拓宽审计视角,优化工作机制,以实际行动在推战略、防风险、促管理、提质量等方面发挥了重要作用。2017-2019年,团队直接开展经济责任审计105项,全面精准画像企业负责人履职尽责情况,加强审计结果落地,充分发挥了内部审计的监督、评价、建议、服务职能。  做好立项,持续推动审计监督全覆盖 
期刊
作为中海油田服务股份有限公司(以下简称中海油服)审计部审计队伍的一员“老将”,张丽贤在审计一线工作岗位上认真履职六年,勇作企业的“忠诚卫士”:担任内部审计高级主管的她发挥自身优势,参与集团审计项目屡获好评,在集团审计信息化系统建设中被评为优秀个人;她坚守党和国家赋予审计工作的光荣使命,三年为企业追回资金数千万元,完善制度百余项,推动公司审计改革方案落地。  深耕审计一线  做好一项事业,最难的就是
期刊
[摘要]2018年10月,国际内部审计师协会(IIA)发布了由美国反虚假财务报告委员会下属的发起人委员会(COSO)和世界可持续发展工商理事会(WBCSD)合作制定的一套指南,将企业风险管理(ERM)概念和流程运用于ESG相关领域,以帮助组织更好地了解风险所在,并有效地管理和披露风险。鉴于该指南内容翔实、指导性强,篇幅较长,故分篇刊载,本篇为第六篇。  [关键词]ESG 组织 风险管理 指南
期刊
[摘要]统筹审计项目和审计组织方式即“两统筹”,是国家审计管理模式的最新创新实践。人民银行充分借鉴国家审计经验,将“两统筹”理念运用于重大政策落实跟踪审计,提高了审计成效。本文结合实践,对如何加强“两统筹”,进一步提高重大政策落实跟踪审计效能进行了思考。  [关键词]两统筹 重大政策落实 跟踪审计  20年的新冠肺炎疫情给全世界经济运行带来  严峻挑战,党中央、国务院适时研判形势,科学决策部署,有
期刊
国药控股股份有限公司(以下简称“国药控股”)是中国医药集团有限公司所属核心企业。国药控股始终将内部审计工作作为公司治理体系的重要组成部分,坚定不移贯彻新发展理念,持续完善内部审计领导体制和管理机制,升级内部审计职能定位,提升内部审计监督效能,促进公司不断提高管理经营绩效,助力公司实现高质量发展,保障公司战略目标的实现。  提高政治站位,加强对内部审计工作的组织领导  国药控股严格按照审计署、国务院
期刊
作为海南银行股份有限公司(以下简称海南银行)审计部的党支部书记、总经理,陈东娃严谨、勤恳、务实、廉洁,几年来她带领审计部认真贯彻落实党的路线方针政策,执行人民银行、银保监会和本行工作管理指导思想,围绕工作目标,积极组织、协调、落实好工作重点,起到了表率作用。2017年,陈东娃被评为海南银行“优秀党务工作者”,2019年先后荣获海南银行年度“服务标兵”和“三八红旗手”称号。  多管齐下,夯实内审工作
期刊
[摘要]中国核工业华兴建设有限公司结合自身实际,运用“过程方法”的管理理念创新、实践并形成一套系统的审计结果运用管理模式。该模式以“促进完善公司治理结构、管理制度和提升公司治理能力”为目标导向,提炼出六个维度并定义了结果运用的内容、形式和途径,形成一套系统的结构化制度体系,确保内部审计结果运用具有更好的融入性和效果,最大限度地实现审计价值。  [关键词]内部审计 结果运用 过程方法 管理模式
期刊