基于Spark的零部件尺寸测量数据聚类分析技术研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户：babycat_hj

【摘要】

：

零部件的互换性是其生产过程影响甚广的重要性质，其中选配工作就极依赖这个性质，对零部件分组能够显著提升组内的互换性。选配工作是对两种或多种配合零件选择配对，是生产工作中

【作者】

：

王颖

【机构】

：

南京理工大学

【出处】

：

南京理工大学

【发表日期】

：

2017年期

【关键词】

：

数据处理谱聚类算法零部件尺寸选配工作

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

零部件的互换性是其生产过程影响甚广的重要性质，其中选配工作就极依赖这个性质，对零部件分组能够显著提升组内的互换性。选配工作是对两种或多种配合零件选择配对，是生产工作中耗时耗力的步骤。一般采用分组选配方案，传统分组是将每种零件按实际测量尺寸形成公差带，根据公差带进行分组。这种分组方法只能适用于单个维度尺寸的分组，本文选用了效果好、依赖少的谱聚类算法对尺寸测量数据进行聚类分组，能够对多维度尺寸数据进行分组，极大提高了零件的互换性。　　谱聚类是一种不同于k-means等基于质心的传统聚类算法，对数据分布没有过多假设，且多方面评价指标有优势的算法。本文对谱聚类算法进行了两方面的改进，第一利用了堆数据结构快速搜索出每个样本点的k近邻邻域，获得远高于原始基于排序的经典算法的执行效率;第二利用额外的邻域累计信息来去除不可靠的相似连接来提高聚类结果的可靠性和真实性。最后结合以上两个策略形成了新算法HCKNNSC(K-Nearest Neighbor Spectral Clustering algorithm based on Heap and Consensus，基于堆和邻域共识的k近邻谱聚类算法），比起传统谱聚类在时间效率和划分结果上都有了显著提升。本文除了理论分析证明之外还用实验验证了这两种策略带来了额外的时间效率增益和更精准、更符合实际意义的划分界限。　　此外，由于工业和自动化测量的蓬勃发展，零部件尺寸数据的规模大幅增长，而聚类算法的横向扩展性不佳，所以本文还对提出的新算法进行并行化设计，主要设计了距离矩阵的计算、k近邻快速搜索、邻域累计计算、映射相似图和计算Laplacian矩阵、Laplacian矩阵的并行特征分解和特征空间的传统划分的算法设计。　　最后，本文选择在Spark框架上用Scala语言实现我们的新算法，借助Spark生态中MLlib类库底层的矩阵、向量接口等工具进行更优的简化实现。然后在理论上分析了算法各个主要步骤的时间和空间复杂度，由分析结果可知并行算法在两个方面比单机算法都有了较大改进。最后在集群上进行多角度实验，揭示了算法的并行实现与集群规模、数据集规模之间的关系，得出在本文的应用场景下Spark实现比单机实现执行效率更高，且在数据量不超出集群内存的情况下数据规模越大、集群节点数越多，效率提高越多的结论。

其他文献

高职理实一体化课程教学质量评价系统的研究

随着高职院校理实一体化课程教学的改革,对教学质量的评价也变得越来越重要.本文利用模糊理论对教学质量影响因素进行分析,建立了一套教学质量评价指标体系,并详细设计了一套

期刊

教学质量理实一体化评价系统

基于Sigma EM8551的IPTV客户端系统的设计与实现

IPTV 是互联网的一种新的业务模式,同时也是传媒在互联网时代一种更灵活的发展方向。从长远来看,IPTV必将代替现在的普通电视成为普通大众的主要电视收看手段。从目前的情况

学位

IPTV客户端系统ISMA协议栈RTSP协议EM8551芯片

基于层次结构应用层组播的数据可靠传输算法研究

由于存在可扩展性差、管理难等问题，IP可靠组播一直没在Internet上得到广泛的部署。而应用层组播基于重叠网(OverlayNetworks)之上构建，使用单播实现组播功能，成为解决可靠的多

学位

重叠网IP组播应用层组播混合组播可靠组播

电子政务信息安全若干技术的分析与研究

在世界各国积极倡导的"信息高速公路"的五个应用领域中,"电子政府"被列为第一位,其它四个领域分别是电子商务、远程教育、远程医疗、电子娱乐.因此可以说政府信息化是社会信

学位

电子政务信息安全结构安全系统安全密码技术

一种协作自适应的水下传感器网络多信道MAC协议

随着无线传感器网络(Wireless sensor networks, WSNs)和水声通信技术的发展，水下传感器网络(Underwater sensor acoustic networks, UWSNs)广泛应用于海洋勘测、军事管理和环

学位

水下传感器网络介质访问控制协议多信道自适应

面向CRM的集成数据挖掘技术的研究

信息时代的来临促使企业的竞争环境发生了巨大变化，企业认识到良好客户关系己成为电子商务时代的制胜关键，并逐渐由过去的以产品为中心，转变为以客户为中心。在此背景下，客户关系

学位

客户关系管理数据挖掘聚类关联规则

面向家庭网络的蓝牙技术研究与实践

蓝牙技术是最近几年出现的一种新的短距离无线通信技术，对其应用于家庭网络的研究具有很大的价值和重要性。论文首先介绍了蓝牙技术和家庭网络在国内外的发展现状，对家庭内

学位

家庭网络蓝牙家居服务器信息家电

基于IT-Kid的WordNet研究与应用

WordNet经过近20年的发展，在国际计算语言学界有相当大的影响，是语义词典事实上的国际标准，被普遍认为是用于计算语言学、文本分析和许多相关领域的最重要的资源。目前，WordNet已

学位

WordNetIT-Kid自动词典对照向量空间模型文本聚类语义计算计算语言学机器翻译

基于Q学习的复杂程序动态分析技术

Q学习是机器学习的一种,以其简捷、高效的算法及自适应学习特点,成为增强学习的典型代表,在人工智能领域得到越来越多的应用。理论和实践证明,解决动态过程优化问题是Q学习的

学位

程序分析机器学习Q学习复杂程序程序动态分析依赖性分析程序切片

Evolving strategies for tumor immunotherapy:enhancing the enhancer and suppressing the suppressor

Cancers develop complex and dynamic tissue microenvironments to support their sustained growth,invasion and metastasis.For decades,rapid progress has been made

期刊

immunotherapyenhancersuppressorsuppressingsustainedinvasionmetastasisvacc

基于Spark的零部件尺寸测量数据聚类分析技术研究

与本文相关的学术论文