论文部分内容阅读
[摘要]大数据的运用不仅改变了电网企业的发展和管理模式,也给内部审计带来了前所未有的机遇与挑战。本文介绍了在审计大数据的背景下,基于Python的随机森林算法在电网企业人力资源审计中的应用方法,进一步提高内部审计管理的科学化水平,以提升内部审计的工作质量和效率。
[关键词]人力资源审计 随机森林算法 Python
一、引言
電网企业作为关系国民经济命脉和国家能源安全的骨干企业,有力地支撑着国家能源体系。在社会经济和科学技术不断发展,政策环境不断变化,电力体制改革不断深化的大背景下,以国家电网公司为代表的电网企业提出了要建设运营好坚强智能电网和泛在电力物联网的目标,即要充分运用移动互联网、人工智能等现代信息技术,实现电力系统各环节万物互联、人机交互的智慧服务系统。这标志着电网企业的大数据时代已经到来,“电网+大数据”的发展模式,成为电网企业应对建设泛在电力物联网这一新需求的唯一出路。电网企业在生产、经营过程中会接触并产生海量数据,利用合适的工具对这些数据进行挖掘和分析,一方面可以帮助电网企业适应电力市场的发展,另一方面也可帮助电网企业规范内部管理,进一步提升管理质量和效果。而如何将上述海量、散落且无序的数据剥离、整理、归类、分析,以便找到数据间的规律和联系,进而发现审计线索,发挥大数据全面覆盖的优势,是内部审计人员目前亟待解决的课题,现以电网企业人力资源审计为例来作一研究。
二、审计数据采集
基于大数据的审计方式不同于传统方式,主要的数据获取方式是通过各类信息平台或系统主动、实时地获取被审计单位的业务数据。这种方式相对于被动地依靠被审计单位提供审计数据,再利用其他证据进行核实的传统方式而言,数据的真实性、完整性、实时性和审计工作效率等均得到明显提升。
(一)数据来源
在对电网企业实施人力资源审计时,需要获取的数据按照来源可分为内部数据和外部数据。内部数据是指从电网企业自建的系统中获取的数据及被审计单位提供的数据。外部数据是指从外部机构如银行、政府、客户等渠道获取的数据。按照数据类别可分为结构化数据和非结构化数据,结构化数据主要指能够用数据或同一结构表示的数据,如数字、符号等,而各类文档、图片、影像,如被审计单位的人事任免文件、活动通知、各部门自行编制的登记资料等则称为非结构化数据。在实施电网企业人力资源审计时,获取的有效数据中内部数据及非结构化数据占比较高,审计人员需要利用合适的数据处理工具如Excel、Oracle数据库等将数据进行清洗、转化后再进一步利用。
(二)数据获取方式
实施电网企业人力资源专项审计时,审计人员需要获取的数据主要有人资、财务、工会、后勤等专业的业务数据和管理数据。主要获取方式有:直接复制数据;通过中间文件采集数据;通过开放式数据互联方式采集数据;通过专用模板采集数据;通过互联网采集数据。实际工作中,使用较多的是直接复制数据和通过开放式数据互联方式采集数据这两种方法。
审计数据来源日益丰富化、数据类型愈发多元化、获取方式逐渐多样化促使审计人员不断提升信息化审计能力,在追求数据的完整性、使用数据的高效性上下功夫,同时也在推动审计与信息通信等其他学科的融合。
三、随机森林算法的应用
决策树(Decision Trees)算法是一种根据归纳原理从数据集中抽取规则并构建树状预测模型的机器学习方法。随机森林(Random Forest)算法最早由美国统计学家Leo Breiman和Adele Culter在2001年提出,通过自助重复采样,从原始训练样本集中重复随机抽取k个样本生成新的训练样本集合,然后根据自主样本集生成k个决策树组成随机森林,是一种以决策树为基学习器的集成学习方法,包含了多个决策树的分类器,输出结果是由每一个决策树投票或者平均得到,即将投票次数最多的类别或输出结果平均值指定为最终的输出结果。
该算法解决了单个决策树泛化能力弱的缺点,较其他算法而言具有预测结果更准确、运行简单高效、可处理大量多类型数据、训练速度快、可平衡误差等优点。将随机森林算法应用到电网企业内部审计工作中,可用于对已知的审计数据进行整合分析,也可用于审计预测。这不仅可以发挥审计大数据全覆盖的优势,还可以提高审计效率、降低审计风险。将随机森林算法应用于电网企业人力资源审计中,主要有以下几个步骤:
步骤一:明确审计内容
电网企业人力资源审计主要包括人力资源基础管理、管理决策、干部管理、用工管理、人工成本管理、教育培训管理、绩效管理、历史遗留问题整改情况8个方面的内容。在运用随机森林算法进行数据挖掘之前,应根据审计需要,首先需明确此次审计疑点预测的主题内容,即具体需要核查的问题,如:虚列教育培训经费、主业和集体企业相互承担工资、存在在职不在岗人员等。
步骤二:采集审计数据
采集与被审计单位人力资源管理活动相关的各类数据。包括从企业自建的系统中获取数据,如从ERP系统中导出员工花名册、工资核算明细、年度绩效考核结果、员工异动情况等,主要采取直接复制数据的方法进行采集。有时也需要从外部机构获取数据,如社会保险明细等,这部分数据则需要通过开放式数据互联方式或通过互联网进行采集。
步骤三:进行数据分析
首先,根据审计内容和数据特点,设定若干变量,这些变量应与审计疑点预测的主题内容相关。如需预测员工离职率时,设定的变量可为:(1)入职时间;(2)年均薪酬水平;(3)近5年绩效考评结果;(4)最高学历水平;(5)近5年是否升职等。设定的变量可能是定性的数据,也可能是定量的数据,但最关键的是设定变量应与需预测的结果紧密相关,变量的关联度越高,预测结果越准确。其次,对数据进行整体分析,找出变量和预测结果的关系,一般关系为正相关或负相关。如薪酬水平越低的员工离职率越高,最高学历水平越高的员工离职率越高,近5年未能升职的员工比已升职的员工离职率高等,即明确变量与审计内容间的具体关系。 步骤四:建立审计模型
根据审计内容的业务逻辑和变量间的勾稽关系建立数字化审计模型。业务逻辑和数据勾稽关系往往是具体的业务之间固定关系的直接反应,如汇总关系、比例关系、特定的计算方法等。利用Python、SQL Server、Excel高级函数等数据处理工具对将要分析的问题做出概括、抽象表达,进而建立数据分析模型,以便对特定问题进行核查。
步骤五:训练模型与数据预测
利用已知数据对步骤四中建立的模型进行训练,训练后的审计模型可运用在实际审计工作中,用于数据预测,如预测被审计单位出现某特定问题的概率等。由于随机森林算法是一种灵活的机器学习算法,利用以往的数据对其进行训练,通过不断更新数据库并对模型进行训练,预测结果将越来越准确。
四、基于Python随机森林算法的应用案例
Python是一种计算机程序设计语言,由于其易学、便于维护,并且拥有丰富的扩展库可用于完成各种高级任务,近年来成为众多用户广泛使用的语言之一,也是机器学习的首选语言。为验证随机森林算法在电网企业人力资源审计中的有效性,本文使用Python进行编程,并选择某电网企业下属某省公司2016年1月至2018年12月的人力资源管理相关数据进行实验分析。该数据集中包括员工花名册、工资核算明细、岗位异动情况等,数据量超过30万条。
应用案例一:虚列职工教育培训费概率审计模型
本案例拟运用基于Python的随机森林算法对被审计单位出现虚列职工教育培训费的问题的概率进行审计。首先,对原始审计数据进行初步分析,统计人均年薪水平、人员调动次数情况、员工升职情况、各单位绩效排名、各类费用支出情况等。其次,按照数据与审计内容之间的关系,设定若干个相关的变量。根据以往的审计经验,以下8个变量与虚列职工教育培训费问题有较高的相关性:(1)年底集中列支职工教育培训费,10月至12月列支金额占全年的40%以上;(2)职工教育培训费集中支付某一个人,未分别支付至相关人员账户;(3)人均薪酬水平较低,低于该电网企业人均薪资水平;(4)频繁更换人资部负责人、培训专责,频率高于平均更换频率;(5)存在超标准列支培训费的情况;(6)存在超范围列支培训费的情况;(7)被审计单位年度考核排名情况,近3个年度考核排名在全省后30%;(8)以前年度审计中发现过被审计单位或其下属机构存在虚列职工教育培训费的问题。之后,利用Excel软件将原始数据进行清理、转换,按下表的取值范围转换成相应的数字,如“0”“1”“2”等,如表1所示。
如图1所示,模型一(对应案例一)的运行结果用“risk level”表示,其中,“0”代表被审计单位虚列职工教育培训费的概率较低,“1”则代表出现该问题的概率较高。将图1中的运行结果与以往的审计数据进行比对,发现运行结果(图2中“risk-output”)与以往的审计结果(图3中“risk level”)完全一致。说明模型一经训练后,可以对被审计单位出现虚列职工教育培训费的概率进行较准确的预测。
应用案例二:在职不在岗人员审计模型
本案例拟运用基于Python的随机森林算法对被审计单位是否存在在职不在岗人员的问题进行审计。
首先,运用数据分析工具对被审计单位在职员工2016年1月至2018年12月间的年度绩效工资金额、升职情况、报销费用情况、年度绩效考核结果、调动情况、参加会议培训情况等进行初步统计。其次,按照数据与审计内容的关系,设定若干个相关的变量。根据以往的审计经验,以下7个变量与员工在职不在岗问题有较高的相关性:(1)审计期间年度绩效工资总额偏低,低于3万元/人/年;(2)未得到职务或职级提升、晋升,或薪档提升;(3)无差旅费、培训费等费用报销记录;(4)无岗位调动记录;(5)无参加各类会议、培训记录;(6)无参加健康类、荣誉类等各类疗休养记录;(7)门户登陆次数偏少,低于30次/人/年。利用Excel软件将原始数据进行清理、转换之后,将原始数据按下表的取值范围转换成相应的数字,如“0”“1”等,如表2所示。
在Python中输入以下编程语句,利用上一步中转换后的数据,对此次建立的员工在职不在岗人员审计模型进行训练:
如图4所示,模型二的运行结果用“risk level”表示,其中,运行结果为“0”代表该员工在职不在岗的可能性较低,为“1”则代表该员工在职不在岗的可能性较高。模型二的运行结果说明,本次200个样本数据中,有9名员工是在职不在岗员工的可能性较高,审计人员可进一步重点核实这9名员工的实际工作情况。
将上图中的运行结果与已进行核实的在职不在岗人员情况进行比对,发现运行结果(图5中“risk-output”)与以往的审计结果(图6中“risk level”)完全一致,即模型二中筛选出的可疑人员经核实确认为在职不在岗人员。
实验结论:以上两个实验结果充分说明模型一和模型二分别对于被审计单位出现虚列职工教育培训费的概率和员工是否在职不在岗的问题在运行速度及运行准确度上均表现出了良好的预测性能,两个实验都验证了随机森林算法在电网人力资源审计中的有效性。
随机森林算法不仅训练速度快,训练结束后还可生成相应的数据库,通过不断更新数据库并对模型进行训练,可以持续提高预测准确度。在开展审计工作前,审计人员可将相关审计数据导入数据库中,利用相关模型预测是否存在特定风险或问题,为提前明确审计重点、准确把握审计方向提供了有力的数据支撑。
五、结束语
随着大数据的广泛运用,如何合理运用信息化手段高效地分析、处理、挖掘大數据成为实现科技强审、实现审计信息化过程中必须解决的课题。本文提出了基于Python的随机森林算法在电网企业人力资源审计中的运用方式相关研究,该方法不仅能帮助审计人员高效、精准地挖掘出隐藏在数据下的信息,进而构建更健全、高效的日常监督体系,同时也为大数据在审计中的应用技术研究提供了支持,促进了审计大数据的学术积累和实践发展。
(作者单位:国网湖南省电力有限公司,邮政编码:410001 ,电子邮箱:[email protected] )
[关键词]人力资源审计 随机森林算法 Python
一、引言
電网企业作为关系国民经济命脉和国家能源安全的骨干企业,有力地支撑着国家能源体系。在社会经济和科学技术不断发展,政策环境不断变化,电力体制改革不断深化的大背景下,以国家电网公司为代表的电网企业提出了要建设运营好坚强智能电网和泛在电力物联网的目标,即要充分运用移动互联网、人工智能等现代信息技术,实现电力系统各环节万物互联、人机交互的智慧服务系统。这标志着电网企业的大数据时代已经到来,“电网+大数据”的发展模式,成为电网企业应对建设泛在电力物联网这一新需求的唯一出路。电网企业在生产、经营过程中会接触并产生海量数据,利用合适的工具对这些数据进行挖掘和分析,一方面可以帮助电网企业适应电力市场的发展,另一方面也可帮助电网企业规范内部管理,进一步提升管理质量和效果。而如何将上述海量、散落且无序的数据剥离、整理、归类、分析,以便找到数据间的规律和联系,进而发现审计线索,发挥大数据全面覆盖的优势,是内部审计人员目前亟待解决的课题,现以电网企业人力资源审计为例来作一研究。
二、审计数据采集
基于大数据的审计方式不同于传统方式,主要的数据获取方式是通过各类信息平台或系统主动、实时地获取被审计单位的业务数据。这种方式相对于被动地依靠被审计单位提供审计数据,再利用其他证据进行核实的传统方式而言,数据的真实性、完整性、实时性和审计工作效率等均得到明显提升。
(一)数据来源
在对电网企业实施人力资源审计时,需要获取的数据按照来源可分为内部数据和外部数据。内部数据是指从电网企业自建的系统中获取的数据及被审计单位提供的数据。外部数据是指从外部机构如银行、政府、客户等渠道获取的数据。按照数据类别可分为结构化数据和非结构化数据,结构化数据主要指能够用数据或同一结构表示的数据,如数字、符号等,而各类文档、图片、影像,如被审计单位的人事任免文件、活动通知、各部门自行编制的登记资料等则称为非结构化数据。在实施电网企业人力资源审计时,获取的有效数据中内部数据及非结构化数据占比较高,审计人员需要利用合适的数据处理工具如Excel、Oracle数据库等将数据进行清洗、转化后再进一步利用。
(二)数据获取方式
实施电网企业人力资源专项审计时,审计人员需要获取的数据主要有人资、财务、工会、后勤等专业的业务数据和管理数据。主要获取方式有:直接复制数据;通过中间文件采集数据;通过开放式数据互联方式采集数据;通过专用模板采集数据;通过互联网采集数据。实际工作中,使用较多的是直接复制数据和通过开放式数据互联方式采集数据这两种方法。
审计数据来源日益丰富化、数据类型愈发多元化、获取方式逐渐多样化促使审计人员不断提升信息化审计能力,在追求数据的完整性、使用数据的高效性上下功夫,同时也在推动审计与信息通信等其他学科的融合。
三、随机森林算法的应用
决策树(Decision Trees)算法是一种根据归纳原理从数据集中抽取规则并构建树状预测模型的机器学习方法。随机森林(Random Forest)算法最早由美国统计学家Leo Breiman和Adele Culter在2001年提出,通过自助重复采样,从原始训练样本集中重复随机抽取k个样本生成新的训练样本集合,然后根据自主样本集生成k个决策树组成随机森林,是一种以决策树为基学习器的集成学习方法,包含了多个决策树的分类器,输出结果是由每一个决策树投票或者平均得到,即将投票次数最多的类别或输出结果平均值指定为最终的输出结果。
该算法解决了单个决策树泛化能力弱的缺点,较其他算法而言具有预测结果更准确、运行简单高效、可处理大量多类型数据、训练速度快、可平衡误差等优点。将随机森林算法应用到电网企业内部审计工作中,可用于对已知的审计数据进行整合分析,也可用于审计预测。这不仅可以发挥审计大数据全覆盖的优势,还可以提高审计效率、降低审计风险。将随机森林算法应用于电网企业人力资源审计中,主要有以下几个步骤:
步骤一:明确审计内容
电网企业人力资源审计主要包括人力资源基础管理、管理决策、干部管理、用工管理、人工成本管理、教育培训管理、绩效管理、历史遗留问题整改情况8个方面的内容。在运用随机森林算法进行数据挖掘之前,应根据审计需要,首先需明确此次审计疑点预测的主题内容,即具体需要核查的问题,如:虚列教育培训经费、主业和集体企业相互承担工资、存在在职不在岗人员等。
步骤二:采集审计数据
采集与被审计单位人力资源管理活动相关的各类数据。包括从企业自建的系统中获取数据,如从ERP系统中导出员工花名册、工资核算明细、年度绩效考核结果、员工异动情况等,主要采取直接复制数据的方法进行采集。有时也需要从外部机构获取数据,如社会保险明细等,这部分数据则需要通过开放式数据互联方式或通过互联网进行采集。
步骤三:进行数据分析
首先,根据审计内容和数据特点,设定若干变量,这些变量应与审计疑点预测的主题内容相关。如需预测员工离职率时,设定的变量可为:(1)入职时间;(2)年均薪酬水平;(3)近5年绩效考评结果;(4)最高学历水平;(5)近5年是否升职等。设定的变量可能是定性的数据,也可能是定量的数据,但最关键的是设定变量应与需预测的结果紧密相关,变量的关联度越高,预测结果越准确。其次,对数据进行整体分析,找出变量和预测结果的关系,一般关系为正相关或负相关。如薪酬水平越低的员工离职率越高,最高学历水平越高的员工离职率越高,近5年未能升职的员工比已升职的员工离职率高等,即明确变量与审计内容间的具体关系。 步骤四:建立审计模型
根据审计内容的业务逻辑和变量间的勾稽关系建立数字化审计模型。业务逻辑和数据勾稽关系往往是具体的业务之间固定关系的直接反应,如汇总关系、比例关系、特定的计算方法等。利用Python、SQL Server、Excel高级函数等数据处理工具对将要分析的问题做出概括、抽象表达,进而建立数据分析模型,以便对特定问题进行核查。
步骤五:训练模型与数据预测
利用已知数据对步骤四中建立的模型进行训练,训练后的审计模型可运用在实际审计工作中,用于数据预测,如预测被审计单位出现某特定问题的概率等。由于随机森林算法是一种灵活的机器学习算法,利用以往的数据对其进行训练,通过不断更新数据库并对模型进行训练,预测结果将越来越准确。
四、基于Python随机森林算法的应用案例
Python是一种计算机程序设计语言,由于其易学、便于维护,并且拥有丰富的扩展库可用于完成各种高级任务,近年来成为众多用户广泛使用的语言之一,也是机器学习的首选语言。为验证随机森林算法在电网企业人力资源审计中的有效性,本文使用Python进行编程,并选择某电网企业下属某省公司2016年1月至2018年12月的人力资源管理相关数据进行实验分析。该数据集中包括员工花名册、工资核算明细、岗位异动情况等,数据量超过30万条。
应用案例一:虚列职工教育培训费概率审计模型
本案例拟运用基于Python的随机森林算法对被审计单位出现虚列职工教育培训费的问题的概率进行审计。首先,对原始审计数据进行初步分析,统计人均年薪水平、人员调动次数情况、员工升职情况、各单位绩效排名、各类费用支出情况等。其次,按照数据与审计内容之间的关系,设定若干个相关的变量。根据以往的审计经验,以下8个变量与虚列职工教育培训费问题有较高的相关性:(1)年底集中列支职工教育培训费,10月至12月列支金额占全年的40%以上;(2)职工教育培训费集中支付某一个人,未分别支付至相关人员账户;(3)人均薪酬水平较低,低于该电网企业人均薪资水平;(4)频繁更换人资部负责人、培训专责,频率高于平均更换频率;(5)存在超标准列支培训费的情况;(6)存在超范围列支培训费的情况;(7)被审计单位年度考核排名情况,近3个年度考核排名在全省后30%;(8)以前年度审计中发现过被审计单位或其下属机构存在虚列职工教育培训费的问题。之后,利用Excel软件将原始数据进行清理、转换,按下表的取值范围转换成相应的数字,如“0”“1”“2”等,如表1所示。
如图1所示,模型一(对应案例一)的运行结果用“risk level”表示,其中,“0”代表被审计单位虚列职工教育培训费的概率较低,“1”则代表出现该问题的概率较高。将图1中的运行结果与以往的审计数据进行比对,发现运行结果(图2中“risk-output”)与以往的审计结果(图3中“risk level”)完全一致。说明模型一经训练后,可以对被审计单位出现虚列职工教育培训费的概率进行较准确的预测。
应用案例二:在职不在岗人员审计模型
本案例拟运用基于Python的随机森林算法对被审计单位是否存在在职不在岗人员的问题进行审计。
首先,运用数据分析工具对被审计单位在职员工2016年1月至2018年12月间的年度绩效工资金额、升职情况、报销费用情况、年度绩效考核结果、调动情况、参加会议培训情况等进行初步统计。其次,按照数据与审计内容的关系,设定若干个相关的变量。根据以往的审计经验,以下7个变量与员工在职不在岗问题有较高的相关性:(1)审计期间年度绩效工资总额偏低,低于3万元/人/年;(2)未得到职务或职级提升、晋升,或薪档提升;(3)无差旅费、培训费等费用报销记录;(4)无岗位调动记录;(5)无参加各类会议、培训记录;(6)无参加健康类、荣誉类等各类疗休养记录;(7)门户登陆次数偏少,低于30次/人/年。利用Excel软件将原始数据进行清理、转换之后,将原始数据按下表的取值范围转换成相应的数字,如“0”“1”等,如表2所示。
在Python中输入以下编程语句,利用上一步中转换后的数据,对此次建立的员工在职不在岗人员审计模型进行训练:
如图4所示,模型二的运行结果用“risk level”表示,其中,运行结果为“0”代表该员工在职不在岗的可能性较低,为“1”则代表该员工在职不在岗的可能性较高。模型二的运行结果说明,本次200个样本数据中,有9名员工是在职不在岗员工的可能性较高,审计人员可进一步重点核实这9名员工的实际工作情况。
将上图中的运行结果与已进行核实的在职不在岗人员情况进行比对,发现运行结果(图5中“risk-output”)与以往的审计结果(图6中“risk level”)完全一致,即模型二中筛选出的可疑人员经核实确认为在职不在岗人员。
实验结论:以上两个实验结果充分说明模型一和模型二分别对于被审计单位出现虚列职工教育培训费的概率和员工是否在职不在岗的问题在运行速度及运行准确度上均表现出了良好的预测性能,两个实验都验证了随机森林算法在电网人力资源审计中的有效性。
随机森林算法不仅训练速度快,训练结束后还可生成相应的数据库,通过不断更新数据库并对模型进行训练,可以持续提高预测准确度。在开展审计工作前,审计人员可将相关审计数据导入数据库中,利用相关模型预测是否存在特定风险或问题,为提前明确审计重点、准确把握审计方向提供了有力的数据支撑。
五、结束语
随着大数据的广泛运用,如何合理运用信息化手段高效地分析、处理、挖掘大數据成为实现科技强审、实现审计信息化过程中必须解决的课题。本文提出了基于Python的随机森林算法在电网企业人力资源审计中的运用方式相关研究,该方法不仅能帮助审计人员高效、精准地挖掘出隐藏在数据下的信息,进而构建更健全、高效的日常监督体系,同时也为大数据在审计中的应用技术研究提供了支持,促进了审计大数据的学术积累和实践发展。
(作者单位:国网湖南省电力有限公司,邮政编码:410001 ,电子邮箱:[email protected] )