论文部分内容阅读
摘 要: 按订单生产的多品种小批量企业能够满足消费者的多样化需求,物料采购延迟交付却是该类企业的短板,物料延迟不仅影响生产计划和生产活动,甚至影响企业信誉并造成经济损失。研究提出构建RELIEF-KNN分类算法进行企业采购订单延迟交付风险的预测研究,实现带有阈值的二项分类预测,预测结果较好且稳健。
关键词: 风险管理;多品种小批量;物料采购;延迟交付
【中图分类号】 F274 【文献标识码】 A 【文章编号】 2236-1879(2018)06-0150-01
一、RELIEFKNN方法
KNN算法是数据挖掘分类算法中常见算法之一。文章选用KNN分类算法作为基础,来进行采购订单延迟交付风险预测,是在充分验证了诸多分类算法(贝叶斯分类、K均值、支持向量机、人工神经网络等)的基础上,综合考虑算法的繁简度及预测效果来决定的。在预测效果相当的条件下,优先选择了KNN算法作为基础,用RELIEF方法对KNN进行改进。
随着数据维数的增加,特征空间的体积指数增加,从而导致各方面的计算成本增加,人们称之为维数灾难。高维空间中,较小的噪声便足以掩盖住样本的本质区别,并且更多的无用特征不仅无助于提高分类效率和效果,反而会导致分类性能下降。因此,提取相关度大的特征、剔除无效特征对于构造分类器来说十分关键。
在传统的KNN分类算法中,每个最近邻样本都有相同的投票权,对分类结果的影响程度没有区别,这使得算法的分类效果对最近邻个数k的选择很敏感。而事实上,这k个最近邻样本也有伯仲之分,距离待分类样本越近的最近邻样本理所应当该拥有较高等级的投票权。基于此,降低分类效果对k的敏感度的一种有效途径就是根据每个最近邻与待分类样本的相似程度来赋予不同权重,相似性越高,权重越大。
RELIEF算法最早由Kira提出,其初衷便针对于两类数据的分类问题。Kononenko等人对该方法进行了扩展和完善,使方法更加可靠。RELIEF算法是一种特征权重算法,它根据样本的各个属性和类别的相关性来赋予属性不同的权重。同时,在得到所有样本属性的权重后,可以考虑将权重小于某个阈值的属性移除。将相关性低的属性过滤掉,一方面减少了分类算法的计算量,另一方面也有助于提高分类的准确性。因此,在传统KNN算法之前加入RELIEF算法进行属性筛选和权重计算,能够有效减少无意义的计算,提高KNN分类器的稳定性。在RELIEF算法中,属性和类别的相关性是基于属性对近距离样本的区分能力,简单地说,就是若在某属性上易于将样本进行区分,则给予该属性较高权重,否则给予该属性较低权重。实际操作过程为:
(1)假定训练集D中有两类样本D0和D1,从D中随机选择一个样本x,假设其所属类别为D0。(2)计算样本x与D0和D1中其他所有样本的相似性。。
二、物料采购的延迟交付预测应用
文章将RELIEFKNN算法应用于多品种小批量物料采购订单的延迟交付预测中,为了便于观察和分析结果,首先以模架型芯类别为例,介绍从数据筛选,属性特征提取,延迟交付预测的全过程。
研究采用国内某多品种小批量零部件制造企业,根据公司供应商管理部提供的2013—2014两年的采购数据进行研究,共计约18.5万条订单记录。不同类型物料采购订单的数量及延迟交付率如图1所示。
2013—2014年模架型芯采购订单比较完整的采购记录共计5013条,其中,2575项采购发生了延迟交付情况,2438项采购未发生延迟交付情况。每条采购记录包含“类别(模架型芯)、等级、材料代码、厂家代码、供方状态、单位性质、TS状态、ROH状态、W18状态、AH供应商、供货状态、数量、采购提前期”共计13个样本属性和“最终到货情况(延迟与否)”1个类别标签。其中,“供方状态、单位性质、TS状态、ROH状态、W18状态、AH供应商、供货状态”7项是表征供应商特征的变量。
数据预处理包括以下几项:
(1)由于订单的采购批量为离散的数值型数据,属性值变化范围非常大,无益于后序的分类处理,因此,需要将采购批量的值做预处理,将其取自然对数。(2)采购提前期:采购提前期=最终到货情况(计划)-送货审核日期(订单下达日期),延迟1天交付的订单视为未发生延迟。(3)最终到货情况:属性值为文本型数据“0”和“1”,用“0”表示该订单发生了延迟交付,用“1”表示该订单未发生延迟交付。(4)每个样本都用一个14维向量x表示,x=(x1,x2,…,x13,b),其中xi为样本属性值(分别为类别、等级、材料代码、厂家代码、供方状态、单位性质、TS状态、ROH状态、W18状态、AH供应商、供貨状态、数量、采购提前期),b表示样本的类别标签(最终到货情况为准时或延迟)。
结束语
文章从多品种小批量企业物料采购问题出发,提出用RELIEFKNN算法进行物料采购延迟交付预测。RELIEF方法通过提取相关度大的特征、剔除无效特征,有助于提高KNN分类效率和效果。研究结果表明,文章提出的RELIEFKNN方法能够合理提取属性特征,预测结果稳健,为多品种小批量物料采购延迟交付预测提供了一条有效途径。
参考文献
[1] 谢优俊.多品种小批量生产型企业的物料管理研究[D].浙江工业大学,2016.
[2] 卢山.多产品多阶段制造系统的生产计划研究[D].浙江大学,2016.
[3] 徐金萍.多品种小批量生产模式下的质量管理研究[D].北京交通大学,2016.
[4] 耿娜静.多品种小批量制造企业SS公司供应链管理研究[D].中央民族大学,2016.
[5] 蔡月敏.多品种小批量试产流程再造研究[D].南京大学,2016.
关键词: 风险管理;多品种小批量;物料采购;延迟交付
【中图分类号】 F274 【文献标识码】 A 【文章编号】 2236-1879(2018)06-0150-01
一、RELIEFKNN方法
KNN算法是数据挖掘分类算法中常见算法之一。文章选用KNN分类算法作为基础,来进行采购订单延迟交付风险预测,是在充分验证了诸多分类算法(贝叶斯分类、K均值、支持向量机、人工神经网络等)的基础上,综合考虑算法的繁简度及预测效果来决定的。在预测效果相当的条件下,优先选择了KNN算法作为基础,用RELIEF方法对KNN进行改进。
随着数据维数的增加,特征空间的体积指数增加,从而导致各方面的计算成本增加,人们称之为维数灾难。高维空间中,较小的噪声便足以掩盖住样本的本质区别,并且更多的无用特征不仅无助于提高分类效率和效果,反而会导致分类性能下降。因此,提取相关度大的特征、剔除无效特征对于构造分类器来说十分关键。
在传统的KNN分类算法中,每个最近邻样本都有相同的投票权,对分类结果的影响程度没有区别,这使得算法的分类效果对最近邻个数k的选择很敏感。而事实上,这k个最近邻样本也有伯仲之分,距离待分类样本越近的最近邻样本理所应当该拥有较高等级的投票权。基于此,降低分类效果对k的敏感度的一种有效途径就是根据每个最近邻与待分类样本的相似程度来赋予不同权重,相似性越高,权重越大。
RELIEF算法最早由Kira提出,其初衷便针对于两类数据的分类问题。Kononenko等人对该方法进行了扩展和完善,使方法更加可靠。RELIEF算法是一种特征权重算法,它根据样本的各个属性和类别的相关性来赋予属性不同的权重。同时,在得到所有样本属性的权重后,可以考虑将权重小于某个阈值的属性移除。将相关性低的属性过滤掉,一方面减少了分类算法的计算量,另一方面也有助于提高分类的准确性。因此,在传统KNN算法之前加入RELIEF算法进行属性筛选和权重计算,能够有效减少无意义的计算,提高KNN分类器的稳定性。在RELIEF算法中,属性和类别的相关性是基于属性对近距离样本的区分能力,简单地说,就是若在某属性上易于将样本进行区分,则给予该属性较高权重,否则给予该属性较低权重。实际操作过程为:
(1)假定训练集D中有两类样本D0和D1,从D中随机选择一个样本x,假设其所属类别为D0。(2)计算样本x与D0和D1中其他所有样本的相似性。。
二、物料采购的延迟交付预测应用
文章将RELIEFKNN算法应用于多品种小批量物料采购订单的延迟交付预测中,为了便于观察和分析结果,首先以模架型芯类别为例,介绍从数据筛选,属性特征提取,延迟交付预测的全过程。
研究采用国内某多品种小批量零部件制造企业,根据公司供应商管理部提供的2013—2014两年的采购数据进行研究,共计约18.5万条订单记录。不同类型物料采购订单的数量及延迟交付率如图1所示。
2013—2014年模架型芯采购订单比较完整的采购记录共计5013条,其中,2575项采购发生了延迟交付情况,2438项采购未发生延迟交付情况。每条采购记录包含“类别(模架型芯)、等级、材料代码、厂家代码、供方状态、单位性质、TS状态、ROH状态、W18状态、AH供应商、供货状态、数量、采购提前期”共计13个样本属性和“最终到货情况(延迟与否)”1个类别标签。其中,“供方状态、单位性质、TS状态、ROH状态、W18状态、AH供应商、供货状态”7项是表征供应商特征的变量。
数据预处理包括以下几项:
(1)由于订单的采购批量为离散的数值型数据,属性值变化范围非常大,无益于后序的分类处理,因此,需要将采购批量的值做预处理,将其取自然对数。(2)采购提前期:采购提前期=最终到货情况(计划)-送货审核日期(订单下达日期),延迟1天交付的订单视为未发生延迟。(3)最终到货情况:属性值为文本型数据“0”和“1”,用“0”表示该订单发生了延迟交付,用“1”表示该订单未发生延迟交付。(4)每个样本都用一个14维向量x表示,x=(x1,x2,…,x13,b),其中xi为样本属性值(分别为类别、等级、材料代码、厂家代码、供方状态、单位性质、TS状态、ROH状态、W18状态、AH供应商、供貨状态、数量、采购提前期),b表示样本的类别标签(最终到货情况为准时或延迟)。
结束语
文章从多品种小批量企业物料采购问题出发,提出用RELIEFKNN算法进行物料采购延迟交付预测。RELIEF方法通过提取相关度大的特征、剔除无效特征,有助于提高KNN分类效率和效果。研究结果表明,文章提出的RELIEFKNN方法能够合理提取属性特征,预测结果稳健,为多品种小批量物料采购延迟交付预测提供了一条有效途径。
参考文献
[1] 谢优俊.多品种小批量生产型企业的物料管理研究[D].浙江工业大学,2016.
[2] 卢山.多产品多阶段制造系统的生产计划研究[D].浙江大学,2016.
[3] 徐金萍.多品种小批量生产模式下的质量管理研究[D].北京交通大学,2016.
[4] 耿娜静.多品种小批量制造企业SS公司供应链管理研究[D].中央民族大学,2016.
[5] 蔡月敏.多品种小批量试产流程再造研究[D].南京大学,2016.