论文部分内容阅读
棉花是一种关系到国计民生的重要战略资源,涉及到人类生活的多个行业。棉纺织企业对皮棉的高质量需求、国际市场的竞争、以及国家政策的调整,使得提高棉花加工质量成为当务之急。而今,随着信息技术的发展,“数据挖掘”技术应运而生。棉花加工过程中产生的海量历史数据背后隐含了许多对提高棉花加工质量具有指导意义的信息。利用数据挖掘技术可以挖掘出棉花加工质量与轧花机、皮清机和籽清机上变频器频率之间潜在的有效信息,以达到通过调节变频器的频率来提高棉花加工质量的目的。本文的主要目的是运用数据挖掘技术提出相应策略以提高棉花加工质量。主要内容包括:(1)棉花历史数据的预处理。在数据采集的过程中,由于各种原因会导致现实数据不完整或者存在异常值,“脏数据”的存在使得数据挖掘不能直接进行,因此本文首先对历史数据进行预处理,包括采用回归法填充缺失值,3?准则剔除异常值以及Min-Max算法标准化历史数据。(2)籽棉类别和皮棉等级的数据挖掘。对不同类型的籽棉需要提供不同的质量提升策略,本文采用K-means聚类算法对籽棉进行聚类分类,并针对K-means算法两个缺点进行了改进,避免了K值自定以及随机选取初始聚类中心导致陷入局部最优的缺点,最终将籽棉分成三类。由于棉花指标多,影响复杂,棉花的综合质量没有统一的国家标准,本文采用模糊数学中的模糊分等和隶属度的知识,制定皮棉内在质量的经验模型,能够根据此模型计算出皮棉的综合评价指数,并根据数值的大小对棉花进行优劣的排序。(3)皮棉质量提升策略的数据挖掘。针对每一类籽棉,对其加工时的轧花机、籽清机、皮清机变频器频率和加工后的皮棉质量指数进行关联规则挖掘。由于基础的的关联规则算法Apriori算法对数值型数据不适用,本文将模糊C均值(Fuzzy C-means,FCM)聚类算法与模糊关联规则相结合,将数值型数据转化为布尔型数据,得到了棉花加工轧花机、皮清机、籽清机上变频器频率与皮棉综合质量之间的关联规则,确定了变频器频率的最优值,提出针对每一类籽棉的棉花加工质量提升策略。(4)提升皮棉质量的模式评估和知识表示。本文采用支持向量机(Support Vector Machine,SVM)算法建立预测模型进行提升策略的模式评估,并采用网格搜索法(Grid Search,GS)对支持向量机核函数参数g和惩罚因子C进行寻优,有效提高了预测模型的准确率。模型建立后,将新策略下的皮棉质量同历史策略下的质量进行比较,经验证有87%的皮棉质量得到了提升,本文提出的棉花质量提升策略具有一定的可行性。