论文部分内容阅读
随着大数据、云计算等新兴技术的不断涌现和我国电商平台的迅速发展,互联网中产生了大量的商品数据。伴随着时间的推移,商品的数量越来越多,如何在庞杂无章的海量商品中获取需要的商品,并且精细而准确地挖掘出自己所需商品的信息和对这些多种多样的商品进行分门别类的组织和管理就显得尤为重要。本文使用机器学习的流程将这些商品数据进行统计分析以获得规律,然后再运用这些规律对未知商品数据进行预测和分类。主要研究内容和结果如下:1.对原始数据集进行简单建模发现商品数据特征和数据类别存在数据不平衡的问题,研究爬虫方法、搜索策略和反爬策略,使用Python网络爬虫技术在电商平台采集数据生成新的数据集。对数据集进行数据清洗,包括简单数据清洗、重复值、缺失值、异常值处理,目的是为了保证数据的一致性、完整性、唯一性等,使其具有较高的“质量”。2.对数据进行预处理,包括中英文分词、特征向量化、特征降维、特征选择等处理,将数据转化成在建模阶段能够使用的数据。分词可以将句子或段落分解成词语,这样,计算机就可以将词语作为最小基本单位进行处理,理解其中的含义,而通过删除停用词、添加语料库等优化方法可以使分词更为准确。由于分类器只能处理数值型的数据,所以需要对数据进行特征向量化,但分词后的词语数量太多,生成的向量维度会很大。通过使用特征降维方法可以极大地降低向量值的维度,同时,使用特征选择中的前向选择特征和反向删除特征方法可以删除无关特征和冗余特征。3.研究了在Bagging算法的基础上扩展,将决策树作为基本单元的随机森林算法,对随机森林算法的生成流程和结合策略进行了分析和介绍。将传统的决策树算法与随机森林算法进行了对比,并结合了利用基尼系数选取特征和指定生成特征子集的大小对随机森林算法的特征选择方法进行了改进,提升了模型的分类性能。4.本文使用Python编程语言、Html语言、My SQL数据库实现了基于商品名称的电商平台商品自动分类系统。对系统各个模块进行了详细的设计和实现,最后对系统进行了功能测试,展示了系统的分类功能界面。系统完成了商品数据的分类任务,根据商品名称就可以比较准确的预测出该商品所属的类别,具有比较重要的现实意义。5.在实验阶段,通过实验数据验证了解决数据不平衡问题的实验效果,进行了决策树算法和随机森林算法对比实验和随机森林算法特征选择改进对比实验。首先使用留出法将数据集中的数据随机抽取20%的数据作为验证集,剩下80%的数据作为训练集,然后使用将交叉验证方法和模型评估方法结合的网格搜索算法调整决策树算法和随机森林算法中的超参数,最后利用性能评价指标评估模型的性能,对实验结果进行分析和对比,得出结论。