论文部分内容阅读
以大数据驱动的供应链,能够降低企业运营成本,满足用户多样化需求,提升用户的体验,对整个电商行业的效率提升起到至关重要的作用。库存成本是供应链成本中的重要环节之一,以大数据技术分析挖掘电商交易场景下的数据信息,能对未来的商品需求量进行准确地预测,帮助商家降低仓储成本,支持供应链运营过程中的决策和部署。在库存分析中,由于商家的海量交易数据,数据的维度往往较高,价值密度较低,在进行模型学习时复杂度较高,而且学习的效果较差。本文针对目前特征选择算法及集成学习在处理大数据集时存在的一些问题进行了详细的分析研究,提出了寻求合理的特征选择方法能够降低模型的复杂度,提高预测的精确度的改进思路和方法,并进行实例研究。主要内容和成效如下:1)提出一种基于最大相关最小冗余的特征选择算法(MCMR),该算法考虑特征之间的冗余性及特征与类别间的相关性。基于皮尔森(Pearson)和夹角余弦(COS)相似度算法度量特征间的冗余性,Pearson计算特征之间的线性相关系数,COS计算特征间的非线性相关系数,两者进行指数缩放求和计算特征之间的全相关系数衡量冗余。利用特征相对于类别标签之间的信息增益率衡量特征与类别间的相关性。该算法同时考虑了特征之间的线性和非线性关系,以及特征与类别之间的相关性,有效地去除特征之间的最大冗余性以及解决样本不平衡问题。引入权重α、β参数进行反向特征选择,可以有效的避免过多遍历原始特征集。2)提出一种改进的MCMR的特征选择算法(rMCMR)。在MCMR算法删除特征间的冗余时,通过比较高度关联特征变量相对其它特征变量间相关系数和的平均值,去除平均值较小的特征。而rMCMR算法在这一步考虑高度关联特征与类别间的信息增益率大小,删除较小的特征,优化了MCMR算法再次比较特征与类别间的相关性,避免二次遍历,改善过多删除有价值的信息,同时降低算法时间复杂度。3)在大数据集上进行回归分析时,数据之间往往是非线性关系的,无法找到一条曲线拟合所有点,而多分类问题,可以很好地找到多个超平面区分所有点。所以本文将回归问题转化成分类问题进行特征选择,得到的最优特征子集进行回归预测,相比直接进行回归,精度可以得到显著提升。4)在机器学习中不同算法模型之间存在一定的差异性,本文借鉴集成学习的思想,进行异质多算法模型的融合,有效的结合多算法的优势,融合后的强学习模型相对单一模型效果较优。本文通过UCI数据集实验比较了MCMR算法与CFS算法、WFS算法以及Relief算法等传统特征选择算法在特征约简和分类性能上的效果,MCMR的优势在于保留较少特征的情况下,精确度依然较高。在实例分析中,把回归问题转成分类问题进行特征选择,比较rMCMR算法与MCMR算法的性能,在高维大数据集中,rMCMR特征选择算法能够更大程度的保留原有数据信息,同时达到特征约简的目的。选出的特征子集相比原始数据构建的GBRT模型,均方误差(MSE)总体上降低了19.57%~45.09%。在商品销量预测与分仓中,通过异质多算法模型的集成,使得总仓储成本相比利用单一算法模型进行预测库存成本降低了60~197万元,最终得到线下预测量的库存成本为108万元,验证了集成模型的有效性。