论文部分内容阅读
HACCP全称Hazard Analysis and Critical Control Point,即危害分析关键控制点,表示危害分析的临界控制点,是对可能发生在食品加工环节中的危害进行评估,进而采取控制的一种预防性的食品安全控制体系。本文以《国家食品药品安全“十一五”规划》预演项目“食品安全法规、标准文献信息平台建设——乳制品”中的HACCP分布式增量数据聚类分析为研究背景。
HACCP数据聚类分析是一种增量式数据聚类处理,HACCP数据集合具有自然形状、多个层次、聚类数据不断增加等特性,现有的基于层次的聚类分析方法主要有CURE算法和BIRCH算法,CURE算法不能支持增量数据处理;而BIRCH算法虽然能支持无差别的增量数据处理,但是只适合处理球形数据集合,对边界数据的处理也不够准确。
本文在对原有聚类算法研究的基础之上,针对其对HACCP数据聚类分析存在的不足,提出了一种层次聚类分析模型,该模型能够适用于分布式应用系统,克服了原有层次聚类算法对实时增量数据无差别地处理的不足,并有效地解决了数据来源地理位置分散的问题。
本文还针对原有CURE算法和BIRCH算法的不足,在其基础之上进行改进,提出了PARACURE算法和M-M-BIRCH算法。
本文提出的PARACURE算法是在CURE算法的基础之上进行改进,引入了原子聚类方法、多线程处理技术,同时将PARACURE算法的处理结果封装成M-M-BIRCH算法的输入数据格式,使得在PARACURE算法具有了增量数据聚类的能力,并有效地提高了聚类分析的精度。
本文提出的M-M-BIRCH算法是在BIRCH算法的基础之上,引入多阈值多代表点思想,它对每个聚类中心采用多个代表点进行聚类,每个代表点又具有单独的可变阈值。多阈值和多代表点的引入克服了原有聚类算法球形数据集合的限制,增加了算法对边界数据的处理能力,减少了聚类特征树重建的次数,从而提高了聚类的效率。
本文最后基于流行的J2EE框架构造了支持分布式增量数据聚类分析的数据挖掘系统结构,该系统结构采用了XML数据库,并以XML-RPC技术来替代目前常用的RMI技术来实现分布式系统下的功能模块和数据调用的通用接口,从而避免了面对接口的更新,需要不断发布和广播来同步接口信息的麻烦。