【摘 要】
:
随着“互联网+”、云计算、人工智能等技术的不断广泛应用和深入发展,数据处理技术成为上述研究方向的基础。从多元、非结构化的数据中挖掘出有价值的信息是目前大多数学者研究的主要方向。基于此,本文针对机械零件行业中,普遍存在采购信息不透明、决策不易等问题,对电商平台的机械零件数据进行了相关研究。主要包括设计了一款基于模块设计的智能爬虫系统以高效精准的获取目标零件信息数据,对获取的数据应用基于层次划分的K-
论文部分内容阅读
随着“互联网+”、云计算、人工智能等技术的不断广泛应用和深入发展,数据处理技术成为上述研究方向的基础。从多元、非结构化的数据中挖掘出有价值的信息是目前大多数学者研究的主要方向。基于此,本文针对机械零件行业中,普遍存在采购信息不透明、决策不易等问题,对电商平台的机械零件数据进行了相关研究。主要包括设计了一款基于模块设计的智能爬虫系统以高效精准的获取目标零件信息数据,对获取的数据应用基于层次划分的K-means算法和K-means++算法分别对结构化和非结构化文本数据进行无监督聚类分析,以此为最终的采购决策提供依据。本文各章节安排如下:第一章,首先介绍了数据分析与挖掘技术的背景和重要性,提出数据应用过程中存在的主要问题,详细论述了数据采集和数据挖掘的国内外研究现状。以此给出了本文主要的研究内容、主体框架。第二章,提出基于模块设计的智能爬虫系统,从工程创建、数据结构定义、Xpath解析和数据存储完成基本模块设计,由爬虫提速模块、反爬虫处理、无效文本过滤和数据预处理模块完成基于模块化的智能爬虫设计,并获取了网页数据。第三章,针对机械零件数据的特征提出了基于K-means优化的聚类数据分析算法。对于结构化数据,本文提出基于层次划分的K-means聚类算法,通过异常值处理、最佳K值选取和层次法选取初始中心点三方面对K-means聚类算法进行了优化,并对分类结果进行可视化;对于非结构化数据,通过文本分词、向量化、特征提取几个方面将其转化为结构化数据,利用K-meanS++算法完成文本的特征分类,最终获取分析后的机械零件信息,为决策提供指导。第四章,完成了零件采购数据服务系统的开发,并进行界面测试和功能测试,并以轴承为例,验证了系统的可操作性。第五章,对全文工作内容进行总结,并针对本文的数据挖掘算法中存在的不足之处,说明未来需要解决的问题和研究方向。
其他文献
近年来,我国陆续从国外引进大量多波束测深系统,并广泛应用于江河、水库、湖泊、海洋水下地形的测量;河道疏浚及港口、码头、桥梁工程的测量;并在抗洪抢险实时监测及溃口、崩岸监
根据工程实例分析混凝土外观质量原因,减少外观质量缺陷。
本文简要地分析了我国中等职业教育师资队伍建设存在的问题,重点提出了加强我国职业教育师资队伍建设的三项建议,即通过加强宏观管理、实施校企人才双向流动、加强学校内部管
内皮素(Endothelin,ET)是一种由21个氨基酸组成的生物活性物质。它主要由内皮细胞合成,具有非常强烈的收缩血管的生物活性。近年来研究发现除了具有强烈缩血管作用,同时内皮
对含γ-三氟丙基侧链的氟硅油在四球机上的润滑性进行了研究。结果表明,其润滑性不如酯类润滑油。可通过两条途径改进氟硅油的润滑性:加入润滑添加剂或是改进氟硅油的分子结构
目的:观察康复新液与重组人体表皮生长因子凝胶治疗复发性口腔溃疡的临床效果。方法:将306例口腔溃疡的患者随机分为治疗组160例和对照组146例。治疗组给予康复新液和重组人
殷墟甲骨文是我国目前所见最早且具有断代意义的商代文字的主体之一。由于殷墟甲骨主要为占卜所用,卜问现在或将来,所涵盖的时间词十分丰富。其中表示将来时间的名词主要
Th
精神疾病分类学不仅构建了对于这种疾病的评价,也决定了病人的名誉及其在法律关系中的责任。通过这些直接或间接的作用,精神疾病分类学塑造了一个时代的精神病人的形象。概述了
我国传统文化源远流长,民族服饰作为我国文化的重要载体,体现了我国民族文化的庞大,代表了其发展历程,是一个民族精神内涵和文化价值的体现。为了探索民族服饰在我国文化的重
在全球一体化、新媒体兴盛的时代,单一、直白的平面广告设计已经无法满足现代人全方位的知觉需求,人们对视觉享受有了更多的要求,信息的传达、情感的交流、感官的刺激等方面