论文部分内容阅读
摘 要:目前国网公司按照层层汇总物资需求的方式开展配网物资需求采购计划,需求计划生产周期较长,且采购准确度较低,对生产物资的购置、供应计划、物资领用等环节产生不利影响,并增加了配网物资采购成本。文章关联配网工程项目特征与物资品类需求,通过哑变量的形式构建训练样本,基于随机森林算法对配网物资采购需求进行预测,提升预测精度,有效指导工程建设及生产计划的合理安排,降低采购成本。
关键词:随机森林;配网物资;需求预测
中图分类号:TKl21 文献标识码:A 文章编号:1006-8937(2016)32-0136-02
1 研究背景
国网公司总部物资部自2013年以来开展配网项目物资集中框架招标采购,实现协议库存管控模式,目前每年在3月、9月开展两次农配网物资需求计划安排工作,采用由下至上的工作模式,从生产一线开始对采购需求进行统计、估算、上报,经由地市公司、省公司层层汇总形成总体采购需求,由总部物资部和物资公司共同实施采购,涉及大量的审核、汇总工作。
因此,物资采购需求的产生周期较长,且省市公司物资部门普遍反映,根据预测结果框架招标采购的物资与配网工程建设实际需要的物资在数量上有较大的偏差。同时,公司配网建设所需的物资体量较大,对物资需求预测工作主要基于经验,缺乏农配网需求预测模型支持,导致项目建设所需物资不能按照工程要求准确到位,为了防止项目建设延期,往往过量上报物资需求,然而物资数量过多又会占用公司资金、造成库存物资积压的风险。因此,不准确的采购计划会对物资的采购、供应、暂存和领用等产生影响,导致配网物资整体管理效率降低。
随着国网公司信息系统的完善和业务数据的不断积累,可以通过历史数据构建农配网项目属性及建设内容与所需物资之间的映射关系,并基于下一年度的项目建设计划,从总体角度,分品类预测需要采购的物资数量,提升配网物资需求预测准确率,为企业物资采购批次计划执行提供科学依据,有效指导物资供应计划的合理安排,降低采购和库存成本、提高生产建设的精益化水平。
2 模型原理
为了依据农配网项目的建设计划预测物资采购需求,首先要提取农配网工程项目的项目特征值,以标记各工程项目的建设属性和建设内容,随后需要在已投产的项目记录基础上,构建工程建设特征和建设内容与其领用物资品类、数量之间的映射关系,最后通过学习及模拟工程建设特征和建设内容与物资领用品类、数量之间的函数关系来构建随机森林预测模型。具体的模型构建原理,如图1所示。
在提取項目特征值过程中,首先需要根据历史投产的配网工程项目名称创建配网专业词典,然后使用文本挖掘工具对项目名称中包含的重要特征值进行分词,随后根据各工程项目的物资领用信息归类合并具有相似性质的工程项目,固化成44个工程类型。具体词典创建原理和分词过程参见项目组前期研究成果(参见文章《配网工程项目词库创建及分词探索》)。在分词之后,将项目特征结合地市信息、项目类型、下达预算和历史项目中不同物料小类的物料领用总量共同作为随机森林预测模型的输入空间。
采用2013、2014年领料记录完整的历史项目物料小类采购数据作为训练集,2015年领料记录完整的项目物料小类采购数据作为测试集。由于配网输入数据具有标签复杂,类型众多的特点,因此首先需要对数据进行数据预处理,排除不符合业务逻辑的异常值,将原始数据转换成为采取哑变量方法进行展示的形式并作为随机森林模型的输入,以便随机森林模型可以更好地学习历史项目的有效特征。
3 预测模型构建
配网项目具有样本数量多,项目类型、标签复杂的特征。因此,采用具备处理高维数据能力的随机森林算法构建配网物资需求预测模型,同时随机森林模型在训练速度和避免过拟合方面也具有明显的优势。简单地说,随机森林是利用多棵决策树对样本进行预测的模型,它的结构,如图2所示。给定决策树的数量,每棵决策树按既定方法选取输入信息的子集作为样例进行学习,不剪枝地生长,直到满足停止生长规则并给出结果,最终集合所有单棵决策树结果做出判断并把信息传递给外界。
随机森林通过自助法重采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合,然后根据自助样本集生成k个决策树组成随机森林。其实质是对决策树算法的一种改进,将多个决策树合并在一起,每棵树的建立依赖于一个独立抽取的样品,其输出将会是所有决策树输出的平均值。
随机森林中每一棵决策树为二叉树,其生成遵循自顶向下的递归分裂原则,即从根节点开始对训练集进行划分。分裂过程中,按照最大信息增益率的原则选取特征,并不断分裂为左节点和右节点,直到满足分枝停止规则方才停止生长。为了精确地定义信息增益,先定义一个度量标准,称为熵(entropy),它表示任意样例的纯度(purity):
构建预测模型时,首先将预处理过的历史数据作为输入空间放在随机森林预测模型中,模型会根据输入空间学习历史项目中不同项目工程特征的不同物料小类的领料特征,形成随机森林网络,直到获取最优的分裂信息和信息增益率时模型训练停止。随后根据下一年度新的建设计划,包括工程属性、电压等级、下达预算等变量作为新的输入空间,进行分品类的物资需求预测。以国网某省公司的实际数据计算结果为例,对于采购金额最高的12个物料小类的预测精准度都稳定保持在95%以上。见表1。
4 研究结论
通过研究发现可以对配网工程项目名称进行特征值提取,结合投资规模、所属单位、电压等级等项目属性信息,分物料小类构建项目特征与物料领用信息之间的规律,通过随机森林学习并模拟,训练得到相应的映射函数,以从物料小类汇总数量的层面上实现对物资采购需求的预测。
对于后期的实际工作而言,只要规划配网建设计划,即可评估出下一年度各物料小类的总体采购需求,大幅提升配网物资采购需求安排的准确度及需求计划的编制效率。
参考文献:
[1] 王学斌,马士华. 库存需求灾变灰预测模型[J].工业工程与管理,2002
(5):23-28.
[2] 曾艳.需求确定的多级库存系统的库存策略[J].集美大学学报,2004(3),
77-81.
[3] 张旭梅.面向供应链的合作计划预测与补给[J].工业工程,2000(4):
45-47.
[4] 王晓萍.库存控制模型与算法[J].工业技术经济,2000(5): 25-28.
[5] Yang P C,Wee H M. Economic ordering policy of deteriorated items
for Vendor and buyer an integrated approach[J]. Production Planing
and Conrtol, 2011, 11(5): 474-480.
关键词:随机森林;配网物资;需求预测
中图分类号:TKl21 文献标识码:A 文章编号:1006-8937(2016)32-0136-02
1 研究背景
国网公司总部物资部自2013年以来开展配网项目物资集中框架招标采购,实现协议库存管控模式,目前每年在3月、9月开展两次农配网物资需求计划安排工作,采用由下至上的工作模式,从生产一线开始对采购需求进行统计、估算、上报,经由地市公司、省公司层层汇总形成总体采购需求,由总部物资部和物资公司共同实施采购,涉及大量的审核、汇总工作。
因此,物资采购需求的产生周期较长,且省市公司物资部门普遍反映,根据预测结果框架招标采购的物资与配网工程建设实际需要的物资在数量上有较大的偏差。同时,公司配网建设所需的物资体量较大,对物资需求预测工作主要基于经验,缺乏农配网需求预测模型支持,导致项目建设所需物资不能按照工程要求准确到位,为了防止项目建设延期,往往过量上报物资需求,然而物资数量过多又会占用公司资金、造成库存物资积压的风险。因此,不准确的采购计划会对物资的采购、供应、暂存和领用等产生影响,导致配网物资整体管理效率降低。
随着国网公司信息系统的完善和业务数据的不断积累,可以通过历史数据构建农配网项目属性及建设内容与所需物资之间的映射关系,并基于下一年度的项目建设计划,从总体角度,分品类预测需要采购的物资数量,提升配网物资需求预测准确率,为企业物资采购批次计划执行提供科学依据,有效指导物资供应计划的合理安排,降低采购和库存成本、提高生产建设的精益化水平。
2 模型原理
为了依据农配网项目的建设计划预测物资采购需求,首先要提取农配网工程项目的项目特征值,以标记各工程项目的建设属性和建设内容,随后需要在已投产的项目记录基础上,构建工程建设特征和建设内容与其领用物资品类、数量之间的映射关系,最后通过学习及模拟工程建设特征和建设内容与物资领用品类、数量之间的函数关系来构建随机森林预测模型。具体的模型构建原理,如图1所示。
在提取項目特征值过程中,首先需要根据历史投产的配网工程项目名称创建配网专业词典,然后使用文本挖掘工具对项目名称中包含的重要特征值进行分词,随后根据各工程项目的物资领用信息归类合并具有相似性质的工程项目,固化成44个工程类型。具体词典创建原理和分词过程参见项目组前期研究成果(参见文章《配网工程项目词库创建及分词探索》)。在分词之后,将项目特征结合地市信息、项目类型、下达预算和历史项目中不同物料小类的物料领用总量共同作为随机森林预测模型的输入空间。
采用2013、2014年领料记录完整的历史项目物料小类采购数据作为训练集,2015年领料记录完整的项目物料小类采购数据作为测试集。由于配网输入数据具有标签复杂,类型众多的特点,因此首先需要对数据进行数据预处理,排除不符合业务逻辑的异常值,将原始数据转换成为采取哑变量方法进行展示的形式并作为随机森林模型的输入,以便随机森林模型可以更好地学习历史项目的有效特征。
3 预测模型构建
配网项目具有样本数量多,项目类型、标签复杂的特征。因此,采用具备处理高维数据能力的随机森林算法构建配网物资需求预测模型,同时随机森林模型在训练速度和避免过拟合方面也具有明显的优势。简单地说,随机森林是利用多棵决策树对样本进行预测的模型,它的结构,如图2所示。给定决策树的数量,每棵决策树按既定方法选取输入信息的子集作为样例进行学习,不剪枝地生长,直到满足停止生长规则并给出结果,最终集合所有单棵决策树结果做出判断并把信息传递给外界。
随机森林通过自助法重采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合,然后根据自助样本集生成k个决策树组成随机森林。其实质是对决策树算法的一种改进,将多个决策树合并在一起,每棵树的建立依赖于一个独立抽取的样品,其输出将会是所有决策树输出的平均值。
随机森林中每一棵决策树为二叉树,其生成遵循自顶向下的递归分裂原则,即从根节点开始对训练集进行划分。分裂过程中,按照最大信息增益率的原则选取特征,并不断分裂为左节点和右节点,直到满足分枝停止规则方才停止生长。为了精确地定义信息增益,先定义一个度量标准,称为熵(entropy),它表示任意样例的纯度(purity):
构建预测模型时,首先将预处理过的历史数据作为输入空间放在随机森林预测模型中,模型会根据输入空间学习历史项目中不同项目工程特征的不同物料小类的领料特征,形成随机森林网络,直到获取最优的分裂信息和信息增益率时模型训练停止。随后根据下一年度新的建设计划,包括工程属性、电压等级、下达预算等变量作为新的输入空间,进行分品类的物资需求预测。以国网某省公司的实际数据计算结果为例,对于采购金额最高的12个物料小类的预测精准度都稳定保持在95%以上。见表1。
4 研究结论
通过研究发现可以对配网工程项目名称进行特征值提取,结合投资规模、所属单位、电压等级等项目属性信息,分物料小类构建项目特征与物料领用信息之间的规律,通过随机森林学习并模拟,训练得到相应的映射函数,以从物料小类汇总数量的层面上实现对物资采购需求的预测。
对于后期的实际工作而言,只要规划配网建设计划,即可评估出下一年度各物料小类的总体采购需求,大幅提升配网物资采购需求安排的准确度及需求计划的编制效率。
参考文献:
[1] 王学斌,马士华. 库存需求灾变灰预测模型[J].工业工程与管理,2002
(5):23-28.
[2] 曾艳.需求确定的多级库存系统的库存策略[J].集美大学学报,2004(3),
77-81.
[3] 张旭梅.面向供应链的合作计划预测与补给[J].工业工程,2000(4):
45-47.
[4] 王晓萍.库存控制模型与算法[J].工业技术经济,2000(5): 25-28.
[5] Yang P C,Wee H M. Economic ordering policy of deteriorated items
for Vendor and buyer an integrated approach[J]. Production Planing
and Conrtol, 2011, 11(5): 474-480.