论文部分内容阅读
[摘要]供应商间围串标行为是困扰企业招标采购工作的难点问题之一,而找到供应商间的紧密关系,则是破解这一难题的关键所在。本文通过社区发现算法和关联规则分析算法,对企业的招标采购数据进行分析,识别其团组社区并获得内部关系结构,从中发现供应商间隐藏的关联关系,为审计人员进行分析提供有效线索。
[关键词]招投标审计 围串标 数据分析
一、导言
自招标投标采购要求实施及推广以来,供应商围串标在企业采购招标过程中屡见不鲜。对企业采购来说,该行为可能对招标项目质量产生不利影响。对此,常见的内部审计策略是对每个项目进行检查,判断是否存在国家招标投标法实施条例中所列投标文件由同一单位编制、投标文件异常一致、投标保证金从相同账户转出等串通投标情形,或者通过分析供应商之间是否存在股权相关投资、高管交叉任职等直接关系。但传统方式核实工作量大、效率低,且难以发现供应商之间更为隐蔽的私下挂靠或协商组团投标行为。随着电子招采平台的普及与企业信息化程度的提高,更有效率的一种策略是根据供应商投标行为特征,在审计模型中对供应商紧密关系进行识别,找出疑似围串标企业组,进一步分析相关投标项目。
现有关联组团研究中,王俊芳、游松庆等采用频繁集项等关联算法对供应商投标数据进行分析,挖掘供应商之间的内部关系。但实际应用中,上述方法仍难以满足围串标行为识别分析的需要:一是简单的关联规则识别疑似围串标团组精准度较低;二是未经分类的供应商投标数据在频繁项集计算中会产生较多冗余数据。
本文整合社区发现和关联规则分析算法进行数据挖掘应用,能够有效识别供应团组社区并获得其内部关系结构,对于在合同招投标审计过程中辨识围串标行为具有显著作用。
二、主要审计思路及相关算法
(一)审计思路
首先,利用社区发现算法对招采数据中涉及的供应商进行初步分组。其次,在供应商初步分組中逐个应用关联规则分析寻找组内频繁项集,即经常同时参与某些项目投标的供应商团组,在结果中设置提取规则,进一步提升社区名单的准确性与覆盖面,并获得团组内部的关系结构。最后,应用数据分析提取的供应商团组,反查相关合同标的,确认有关行为及事实。
(二)涉及算法介绍
1.Louvain社区发现算法。Louvain算法是一种基于模块度的社区发现算法,通过模块度来衡量一个社区的紧密程度。本例中,供应商视为节点,一起投标的同类供应商视为社区,供应商在寻源单中共同出现次数为权重,次数越多,边权越大。模块度定义函数Q如下:
其中,Aij代表节点i和节点j之间的边权;ki和kj分别代表所有与节点i和节点j相连的边的权重之和;m代表所有的边权之和;ci和cj分别代表节点i和节点j所属的社区;表示克罗内克函数。若一个供应商(节点)加入到某个社区(类别)中会使该社区的模块度有最大程度的增加,则认为该节点属于该社区;若未能使其模块度增加,则该供应商留在原社区中,从而实现对供应商分类的目的。
2.Apriori关联规则分析算法。Apriori算法是通过连接产生候选项及其支持度然后通过剪枝生成频繁项集(疑似供应商团组),并分析频繁项集产生强关联规则。相关指标如下:
(1)支持度(support)。支持度代表供应商寻源单中当前供应商组合的频繁程度,如果该组合的支持度大于预设的阈值,则认为该组合为疑似团组(频繁项集)。Apriori算法采用反向减枝计算,即“若一个项目集是非频繁项集,则它的所有超集也是非频繁项集”,可以减少遍历运算量。
(2)置信度(confidence)。置信度代表在供应商A投标的情况下,供应商C同时出现的概率。
(3)提升度(lift)。提升度用于衡量供应商A与C投标的相关性关系:当提升度大于3时,一般认为关联规则有价值;若供应商A与C相互独立,则提升度恰好为1;若提升度小于1,则表示供应商A与C互斥。但实际应用中,该指标易受零事务影响,零事务即与团组无关的供应商投标次数。如总投标次数1000次中,供应商A、C分别参与500次、600次,供应商A、C共同投标次数300次,则lift(A→C)为1;若总投标次数为10000次,则lift(A→C)变为10。
3.KULC度量与不平衡比(IR)。引入不受零事务和事务总数影响的KULC度量与不平衡比(IR),减小因置信度和支持度失效产生的影响。KULC度量值在0-1之间,值越大,供应商之间联系越紧密。但当KULC度量值在0.5左右时,单从KULC度量无法判断当前团组是否有价值。因此,引入不平衡IR比进行参考。当不平衡比接近0时,认为关联关系是平衡的;不平衡比越大,则关联关系越不平衡。若KULC度量值接近0.5并且不平衡比接近0,则认为该关联关系是没有价值的。
三、具体审计流程
根据上述Louvain与Apriori算法,内部审计需结合统计学相关知识并根据围标具有寻源单中全部或大部分供应商同属一个团体这一显著特征,通过全局统计和分析各个寻源单内部的关系这两个角度,评估各种团体的出现形式,筛选出可能性较大的目标组合,具体流程见图1。
流程的关键步骤如下:一是获取招采数据。从招采系统中获取采购寻源单,主要包括采购单位、项目名称、投标供应商名单、中标人名称、中标金额等字段信息。二是数据清洗、转换。根据实际需要,剔除无效数据,如同一寻源单中重复出现的供应商,并对源数据进行转换,提取出关键数据。三是供应商初步分组。按照同类寻源单各供应商之间边权增加1原则,对全局数据进行统计,遍历全部寻源单条目,形成涵盖全部供应商关系的网络。然后,利用Louvain对样本数据进行分类,将关系密切的供应商划分到同一个社区,减少后续Apriori的运算时间,提升效率与准确度。四是形成高关联度供应商团组。对分类之后的每一个初步分组,单独运行Apriori算法,利用二分法寻找每个社群适用的最小支持度,获得尽可能全面的频繁项集结果,计算出对应的关联关系、KULC度量和不平衡比,并筛选出有价值的频繁项集。五是辅助审计。根据上述频繁项集,反查相关合同标的,通过具体合同分析,排查有关围串标行为。 四、方法运用示例
(一)社区发现结果
通过Louvain社区分类算法,将采购寻源单中560家供应商按互相之间同时出现的频繁程度及业务范围划分为9个组别,如建筑建设、通信、工程设计、保险、电器设备等。从结果上看,划分到同一个社区中的供应商业务方向大多一致,划分结果较为精准,见图2、图3。此举可以减少大量零事务,为后续使用Apriori时设置最小置信度提供便利。若不对采购寻源单数据进行预先划分,在后续使用Apriori时,在设置最小置信度时会遇到困难。因为供应商种类繁杂,导致零事务数量巨大:若设置的最小置信度偏大,則会遗漏大量频繁项集,导致输出的结果覆盖面大幅下降;若设置的最小置信度偏小,则会导致无法及时删去非频繁项集,失去Apriori算法的优势,导致计算时间指数性增长。
(二)关联规则分析结果
一部分提升度大于3的频繁项集的KULC度量在0.5左右,不平衡比接近0。在对该部分结果进行排查之后发现,该部分结果虽然提升度大于3,但并非有价值的供应商团组,见图4。由此可见,单独考虑提升度情况下的结果输出形式并不准确。
在引入KULC度量与不平衡比之后,筛选出的供应商团组占比从原来只考虑提升度情况下的73.5%下降到39.7%,大幅减少了输出的数据量,提升了精准度,减少了后续审计疑点排查时间,见图5。
以第2组社区团体中的供应商组合ABC进行说明。对于供应商A→BC,其对应的置信度为0.4,提升度为57.4,KULC度量值为0.7,不平衡比为0.6,见图6。
该供应商团组提升度极高,KULC度量值偏高,不在红色标注的0.4—0.6的范围之内,并且不平衡比较大,远超红色标注的0.2的阈值。具备作为疑点的显著特征,并且供应商A有可能是该团组的主导人。将该疑点事务提出,结合该组合中供应商A的中标率与全局情况下供应商A的中标率进行分析,发现该组合中供应商A的中标率明显偏高。该组合极有可能是高度关联团组,并且供应商A有可能是主导人。根据上述分析结果,审计人员进一步查找该团组相关合同,分析确认是否存在招标投标法实施条例所列述的串通投标情形。
从结果来看,该方法数据筛选精准度较高、覆盖范围较广,极大地缩短了排查时间,辅助审计的作用较为明显。面对大量的寻源单数据,通过采用Louvain分类结合Apriori挖掘的方式,能较好地克服寻源单数量庞大、种类繁多等难点;能对大量标的进行快速分类,较为精准地划分项目类别。在对各个组别分别进行Apriori挖掘时,采用最小二分法快速寻找出适用于对应情况下的最小支持度,能免除对每一个组别设置特定最小支持度的流程,可使审计人员将精力主要集中在筛选出的疑似围标团伙名单,扩大审计覆盖面,提高围标团伙发现率,降低审计风险。
需要指出的是,在最终结果筛选的过程中,如何设置置信度、提升度、KULC度量及不平衡比,以更为精准地筛选出有价值的疑点事务,仍需进一步与招标实际核实、分析。由于标的数量庞大,某些项目类型本身参与者不多,按照本算法,此类参与者可能会在结果中被误认为是疑点团组输出。如何在结果中进一步筛选出高精准度的疑点团组,仍需根据各企业招标实际,通过大量数据反复验证调试各指标的参数。
(作者单位:浙江省能源集团有限公司,邮政编码:310007,电子邮箱:[email protected])
主要参考文献
迟殿委.浅析大数据关联规则挖掘算法及应用[J].电子元器件与信息技术, 2019(4):4-7
杜洁,李芹,潘媛等.聚类分析在内部审计中的应用研究[J].中国管理信息化, 2019(1):4-6
王俊芳,王中龙,刘建,耿建,李艳,王蕾,秦宾.电力企业供应商疑似围标串标行为分析[J].经营与管理, 2018(5):120-123
张志恒,成雪娇.大数据环境下基于文本挖掘的审计数据分析框架[J].会计之友, 2017(16):117-120
[关键词]招投标审计 围串标 数据分析
一、导言
自招标投标采购要求实施及推广以来,供应商围串标在企业采购招标过程中屡见不鲜。对企业采购来说,该行为可能对招标项目质量产生不利影响。对此,常见的内部审计策略是对每个项目进行检查,判断是否存在国家招标投标法实施条例中所列投标文件由同一单位编制、投标文件异常一致、投标保证金从相同账户转出等串通投标情形,或者通过分析供应商之间是否存在股权相关投资、高管交叉任职等直接关系。但传统方式核实工作量大、效率低,且难以发现供应商之间更为隐蔽的私下挂靠或协商组团投标行为。随着电子招采平台的普及与企业信息化程度的提高,更有效率的一种策略是根据供应商投标行为特征,在审计模型中对供应商紧密关系进行识别,找出疑似围串标企业组,进一步分析相关投标项目。
现有关联组团研究中,王俊芳、游松庆等采用频繁集项等关联算法对供应商投标数据进行分析,挖掘供应商之间的内部关系。但实际应用中,上述方法仍难以满足围串标行为识别分析的需要:一是简单的关联规则识别疑似围串标团组精准度较低;二是未经分类的供应商投标数据在频繁项集计算中会产生较多冗余数据。
本文整合社区发现和关联规则分析算法进行数据挖掘应用,能够有效识别供应团组社区并获得其内部关系结构,对于在合同招投标审计过程中辨识围串标行为具有显著作用。
二、主要审计思路及相关算法
(一)审计思路
首先,利用社区发现算法对招采数据中涉及的供应商进行初步分组。其次,在供应商初步分組中逐个应用关联规则分析寻找组内频繁项集,即经常同时参与某些项目投标的供应商团组,在结果中设置提取规则,进一步提升社区名单的准确性与覆盖面,并获得团组内部的关系结构。最后,应用数据分析提取的供应商团组,反查相关合同标的,确认有关行为及事实。
(二)涉及算法介绍
1.Louvain社区发现算法。Louvain算法是一种基于模块度的社区发现算法,通过模块度来衡量一个社区的紧密程度。本例中,供应商视为节点,一起投标的同类供应商视为社区,供应商在寻源单中共同出现次数为权重,次数越多,边权越大。模块度定义函数Q如下:
其中,Aij代表节点i和节点j之间的边权;ki和kj分别代表所有与节点i和节点j相连的边的权重之和;m代表所有的边权之和;ci和cj分别代表节点i和节点j所属的社区;表示克罗内克函数。若一个供应商(节点)加入到某个社区(类别)中会使该社区的模块度有最大程度的增加,则认为该节点属于该社区;若未能使其模块度增加,则该供应商留在原社区中,从而实现对供应商分类的目的。
2.Apriori关联规则分析算法。Apriori算法是通过连接产生候选项及其支持度然后通过剪枝生成频繁项集(疑似供应商团组),并分析频繁项集产生强关联规则。相关指标如下:
(1)支持度(support)。支持度代表供应商寻源单中当前供应商组合的频繁程度,如果该组合的支持度大于预设的阈值,则认为该组合为疑似团组(频繁项集)。Apriori算法采用反向减枝计算,即“若一个项目集是非频繁项集,则它的所有超集也是非频繁项集”,可以减少遍历运算量。
(2)置信度(confidence)。置信度代表在供应商A投标的情况下,供应商C同时出现的概率。
(3)提升度(lift)。提升度用于衡量供应商A与C投标的相关性关系:当提升度大于3时,一般认为关联规则有价值;若供应商A与C相互独立,则提升度恰好为1;若提升度小于1,则表示供应商A与C互斥。但实际应用中,该指标易受零事务影响,零事务即与团组无关的供应商投标次数。如总投标次数1000次中,供应商A、C分别参与500次、600次,供应商A、C共同投标次数300次,则lift(A→C)为1;若总投标次数为10000次,则lift(A→C)变为10。
3.KULC度量与不平衡比(IR)。引入不受零事务和事务总数影响的KULC度量与不平衡比(IR),减小因置信度和支持度失效产生的影响。KULC度量值在0-1之间,值越大,供应商之间联系越紧密。但当KULC度量值在0.5左右时,单从KULC度量无法判断当前团组是否有价值。因此,引入不平衡IR比进行参考。当不平衡比接近0时,认为关联关系是平衡的;不平衡比越大,则关联关系越不平衡。若KULC度量值接近0.5并且不平衡比接近0,则认为该关联关系是没有价值的。
三、具体审计流程
根据上述Louvain与Apriori算法,内部审计需结合统计学相关知识并根据围标具有寻源单中全部或大部分供应商同属一个团体这一显著特征,通过全局统计和分析各个寻源单内部的关系这两个角度,评估各种团体的出现形式,筛选出可能性较大的目标组合,具体流程见图1。
流程的关键步骤如下:一是获取招采数据。从招采系统中获取采购寻源单,主要包括采购单位、项目名称、投标供应商名单、中标人名称、中标金额等字段信息。二是数据清洗、转换。根据实际需要,剔除无效数据,如同一寻源单中重复出现的供应商,并对源数据进行转换,提取出关键数据。三是供应商初步分组。按照同类寻源单各供应商之间边权增加1原则,对全局数据进行统计,遍历全部寻源单条目,形成涵盖全部供应商关系的网络。然后,利用Louvain对样本数据进行分类,将关系密切的供应商划分到同一个社区,减少后续Apriori的运算时间,提升效率与准确度。四是形成高关联度供应商团组。对分类之后的每一个初步分组,单独运行Apriori算法,利用二分法寻找每个社群适用的最小支持度,获得尽可能全面的频繁项集结果,计算出对应的关联关系、KULC度量和不平衡比,并筛选出有价值的频繁项集。五是辅助审计。根据上述频繁项集,反查相关合同标的,通过具体合同分析,排查有关围串标行为。 四、方法运用示例
(一)社区发现结果
通过Louvain社区分类算法,将采购寻源单中560家供应商按互相之间同时出现的频繁程度及业务范围划分为9个组别,如建筑建设、通信、工程设计、保险、电器设备等。从结果上看,划分到同一个社区中的供应商业务方向大多一致,划分结果较为精准,见图2、图3。此举可以减少大量零事务,为后续使用Apriori时设置最小置信度提供便利。若不对采购寻源单数据进行预先划分,在后续使用Apriori时,在设置最小置信度时会遇到困难。因为供应商种类繁杂,导致零事务数量巨大:若设置的最小置信度偏大,則会遗漏大量频繁项集,导致输出的结果覆盖面大幅下降;若设置的最小置信度偏小,则会导致无法及时删去非频繁项集,失去Apriori算法的优势,导致计算时间指数性增长。
(二)关联规则分析结果
一部分提升度大于3的频繁项集的KULC度量在0.5左右,不平衡比接近0。在对该部分结果进行排查之后发现,该部分结果虽然提升度大于3,但并非有价值的供应商团组,见图4。由此可见,单独考虑提升度情况下的结果输出形式并不准确。
在引入KULC度量与不平衡比之后,筛选出的供应商团组占比从原来只考虑提升度情况下的73.5%下降到39.7%,大幅减少了输出的数据量,提升了精准度,减少了后续审计疑点排查时间,见图5。
以第2组社区团体中的供应商组合ABC进行说明。对于供应商A→BC,其对应的置信度为0.4,提升度为57.4,KULC度量值为0.7,不平衡比为0.6,见图6。
该供应商团组提升度极高,KULC度量值偏高,不在红色标注的0.4—0.6的范围之内,并且不平衡比较大,远超红色标注的0.2的阈值。具备作为疑点的显著特征,并且供应商A有可能是该团组的主导人。将该疑点事务提出,结合该组合中供应商A的中标率与全局情况下供应商A的中标率进行分析,发现该组合中供应商A的中标率明显偏高。该组合极有可能是高度关联团组,并且供应商A有可能是主导人。根据上述分析结果,审计人员进一步查找该团组相关合同,分析确认是否存在招标投标法实施条例所列述的串通投标情形。
从结果来看,该方法数据筛选精准度较高、覆盖范围较广,极大地缩短了排查时间,辅助审计的作用较为明显。面对大量的寻源单数据,通过采用Louvain分类结合Apriori挖掘的方式,能较好地克服寻源单数量庞大、种类繁多等难点;能对大量标的进行快速分类,较为精准地划分项目类别。在对各个组别分别进行Apriori挖掘时,采用最小二分法快速寻找出适用于对应情况下的最小支持度,能免除对每一个组别设置特定最小支持度的流程,可使审计人员将精力主要集中在筛选出的疑似围标团伙名单,扩大审计覆盖面,提高围标团伙发现率,降低审计风险。
需要指出的是,在最终结果筛选的过程中,如何设置置信度、提升度、KULC度量及不平衡比,以更为精准地筛选出有价值的疑点事务,仍需进一步与招标实际核实、分析。由于标的数量庞大,某些项目类型本身参与者不多,按照本算法,此类参与者可能会在结果中被误认为是疑点团组输出。如何在结果中进一步筛选出高精准度的疑点团组,仍需根据各企业招标实际,通过大量数据反复验证调试各指标的参数。
(作者单位:浙江省能源集团有限公司,邮政编码:310007,电子邮箱:[email protected])
主要参考文献
迟殿委.浅析大数据关联规则挖掘算法及应用[J].电子元器件与信息技术, 2019(4):4-7
杜洁,李芹,潘媛等.聚类分析在内部审计中的应用研究[J].中国管理信息化, 2019(1):4-6
王俊芳,王中龙,刘建,耿建,李艳,王蕾,秦宾.电力企业供应商疑似围标串标行为分析[J].经营与管理, 2018(5):120-123
张志恒,成雪娇.大数据环境下基于文本挖掘的审计数据分析框架[J].会计之友, 2017(16):117-120