基于商品名称的电商平台商品自动分类的研究与实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:hyh900
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据、云计算等新兴技术的不断涌现和我国电商平台的迅速发展,互联网中产生了大量的商品数据。伴随着时间的推移,商品的数量越来越多,如何在庞杂无章的海量商品中获取需要的商品,并且精细而准确地挖掘出自己所需商品的信息和对这些多种多样的商品进行分门别类的组织和管理就显得尤为重要。本文使用机器学习的流程将这些商品数据进行统计分析以获得规律,然后再运用这些规律对未知商品数据进行预测和分类。主要研究内容和结果如下:1.对原始数据集进行简单建模发现商品数据特征和数据类别存在数据不平衡的问题,研究爬虫方法、搜索策略和反爬策略,使用Python网络爬虫技术在电商平台采集数据生成新的数据集。对数据集进行数据清洗,包括简单数据清洗、重复值、缺失值、异常值处理,目的是为了保证数据的一致性、完整性、唯一性等,使其具有较高的“质量”。2.对数据进行预处理,包括中英文分词、特征向量化、特征降维、特征选择等处理,将数据转化成在建模阶段能够使用的数据。分词可以将句子或段落分解成词语,这样,计算机就可以将词语作为最小基本单位进行处理,理解其中的含义,而通过删除停用词、添加语料库等优化方法可以使分词更为准确。由于分类器只能处理数值型的数据,所以需要对数据进行特征向量化,但分词后的词语数量太多,生成的向量维度会很大。通过使用特征降维方法可以极大地降低向量值的维度,同时,使用特征选择中的前向选择特征和反向删除特征方法可以删除无关特征和冗余特征。3.研究了在Bagging算法的基础上扩展,将决策树作为基本单元的随机森林算法,对随机森林算法的生成流程和结合策略进行了分析和介绍。将传统的决策树算法与随机森林算法进行了对比,并结合了利用基尼系数选取特征和指定生成特征子集的大小对随机森林算法的特征选择方法进行了改进,提升了模型的分类性能。4.本文使用Python编程语言、Html语言、My SQL数据库实现了基于商品名称的电商平台商品自动分类系统。对系统各个模块进行了详细的设计和实现,最后对系统进行了功能测试,展示了系统的分类功能界面。系统完成了商品数据的分类任务,根据商品名称就可以比较准确的预测出该商品所属的类别,具有比较重要的现实意义。5.在实验阶段,通过实验数据验证了解决数据不平衡问题的实验效果,进行了决策树算法和随机森林算法对比实验和随机森林算法特征选择改进对比实验。首先使用留出法将数据集中的数据随机抽取20%的数据作为验证集,剩下80%的数据作为训练集,然后使用将交叉验证方法和模型评估方法结合的网格搜索算法调整决策树算法和随机森林算法中的超参数,最后利用性能评价指标评估模型的性能,对实验结果进行分析和对比,得出结论。
其他文献
词汇附带习得,作为一种有效的词汇习得方式,已经得到越来越多学者和英语教师的关注。然而,其效果却并不令人非常满意,学者们在这种词汇记忆方法上仍然有些争议。为了更好地解
吉尔吉斯共和国是一个位于中亚的内陆国家。北边与哈萨克斯坦相接,西边则为乌兹别克斯坦,西南为塔吉克斯坦,东边紧邻中国。比什凯克是吉尔吉斯斯坦的首都和最大城市。据统计,
第一部分mi R-630在结直肠癌组织中的表达特征目的:检测miR-630在结直肠癌组织和正常肠黏膜组织中表达水平差异,分析其与结直肠癌发病及病理上可能存在的关系。方法:选取45名
现如今随着经济与科技的逐渐发展,中国与世界各国之间的联系与交流也日渐频繁,这也就随之带动了各自间的文化交流。而小说这种文学形式在各民族文化间的交流上,使得翻译显得
随着信息通信技术的日益发展,信息化社会应运而生,2016——2017是“中俄媒体交流年”,这给两国媒体的合作提供了重要机遇,令我们看到未来两国在这一领域合作的广阔前景。新闻
冲击波在密集生物体中的传播现象与在空气中传播现象不同,冲击波对生物体造成的伤害也不尽相同,因此密集生物体障碍物条件下发生爆炸事故,研究冲击波的传播现象及其危害效应
人体内的多糖,如糖胺聚糖(glycosaminoglycan)家族,能通过多糖-蛋白质相互作用来影响蛋白质的活性,调节生命过程中的多种信号通路的传递、转导和调控。糖胺聚糖的糖链上存在大
近些年来,安防系统被广泛运用于各行各业,但监管效率依旧低下,人无法长时间保持高度专注可能导致事件的漏报或误报;在险情发生后用户一般只能通过监控历史视频调取进行事后追责。为解决这一难题,本文结合通用的深度学习目标检测算法构建一套支持实时分析预警的框架。本文以工厂生产安全为背景,通过工作人员是否佩戴安全帽和违禁区域入侵问题来展示本文框架在实际场景中的应用。本文的主要工作如下:实时检测画面传输的解决方案
由于技术不成熟、管理机构臃肿,以及企业在生产过程中质量未得到有效管控等原因,导致销售到消费者手中的产品在使用一段时间后会出现严重的质量问题。根据我国《缺陷消费品召
研究背景:多发性骨髓瘤(Multiple myeloma,MM)是一种克隆性浆细胞异常增殖的恶性疾病,是仅次于非霍奇金淋巴瘤的第二大常见血液系统恶性肿瘤。Daratumumab(DARA)可用于治疗复