论文部分内容阅读
政府采购商城是各地政府在互联网上的采购平台,每天要处理大量供货电商数据。面对数据来源各异、品类众多且书写格式无统一规范等问题,传统处理手段不仅费时费力,而且处理结果不理想。本文基于机器学习开展政府采购电商大数据的获取、标定与评价研究,实现政采数据快速获取、同一商品准确标定、利用同一商品历史价格有效预测并评价供货商新报价等,推进机器学习在政府电子采购领域的应用,协助政府智能监控商品质量与价格,减少人为因素干扰及管理成本,降低采购交易价格,提高采购效率增强采购及时性,确保政府采购商城、供货电商以及采购人三方合作共赢。本文开展的研究工作如下:首先,分析政府采购电商大数据的多样性来源与差异化特点,设计并实现数据采集程序来定向快速获取各政采商城网页上的电商数据。程序获取过程中能避免政采网页间差异性、能自动过滤重复网页、能自动筛选出各类商品,并以品类名称分类存储所获取的电商数据,方便后续通过多种不同形式查询调用所保存数据。实验结果表明,每天能够实时采集更新政府采购电商有效数据数量达20万条以上,为后续商品同一性标定以及报价预测及合理性评价提供数据支持。然后,提出一种基于长短时记忆网络(Long Short Term Memory,LSTM)的商品同一性标定模型。该模型由分词、重要性排序、相似度计算等三个子模型串联组成。分词子模型对电商大数据预处理,获得有区分度的关键词序列;LSTM重要性排序子模型筛选最具表征商品信息的重要关键词序列;LSTM相似度计算子模型在给定大数据中准确标定出同一种商品。另外还引入二分查找、全局词频统计词表征(Global Vectors for Word Representation,Glove)词向量化、词序列语义校验技术,分别用于提高标定速度、训练样本利用率与高标定泛化能力。实验结果表明,在处理不同品类政采电商大数据时,对易混淆样本同一性标定准确率高。最后,对被标定为同一种商品的报价进行可视化等预处理,对报价采用三种方式聚类分析。聚类结果表明,基于密度带有噪声聚类(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)比K-means、层次聚类更适用于去除价格奇点,其次基于扩展迪基-福勒(Augment Dickey-Fuller,ADF)检验将报价分为常数项、平稳以及非平稳时间序列。然后针对各序列分别采用差分自回归移动平均(Autoregressive Integrated Moving Average,ARIMA)模型、支持向量机(Support Vector Machine,SVM)、高斯过程(Gaussian Process,GP)模型以及高斯过程混合(Gaussian Process Mixture,GPM)模型进行报价预测及合理性评价。实验结果表明,GP模型与GPM模型能输出报价预测置信区间,使预测及评价结果更可信。另外GPM模型预测精度总体上要高于其它三种模型,是一种商品报价预测及评价的有效模型。