基于聚类分析算法的食品卫生标准中HACCP挖掘技术的研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:allviolet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
HACCP全称Hazard Analysis and Critical Control Point,即危害分析关键控制点,表示危害分析的临界控制点,是对可能发生在食品加工环节中的危害进行评估,进而采取控制的一种预防性的食品安全控制体系。本文以《国家食品药品安全“十一五”规划》预演项目“食品安全法规、标准文献信息平台建设——乳制品”中的HACCP分布式增量数据聚类分析为研究背景。 HACCP数据聚类分析是一种增量式数据聚类处理,HACCP数据集合具有自然形状、多个层次、聚类数据不断增加等特性,现有的基于层次的聚类分析方法主要有CURE算法和BIRCH算法,CURE算法不能支持增量数据处理;而BIRCH算法虽然能支持无差别的增量数据处理,但是只适合处理球形数据集合,对边界数据的处理也不够准确。 本文在对原有聚类算法研究的基础之上,针对其对HACCP数据聚类分析存在的不足,提出了一种层次聚类分析模型,该模型能够适用于分布式应用系统,克服了原有层次聚类算法对实时增量数据无差别地处理的不足,并有效地解决了数据来源地理位置分散的问题。 本文还针对原有CURE算法和BIRCH算法的不足,在其基础之上进行改进,提出了PARACURE算法和M-M-BIRCH算法。 本文提出的PARACURE算法是在CURE算法的基础之上进行改进,引入了原子聚类方法、多线程处理技术,同时将PARACURE算法的处理结果封装成M-M-BIRCH算法的输入数据格式,使得在PARACURE算法具有了增量数据聚类的能力,并有效地提高了聚类分析的精度。 本文提出的M-M-BIRCH算法是在BIRCH算法的基础之上,引入多阈值多代表点思想,它对每个聚类中心采用多个代表点进行聚类,每个代表点又具有单独的可变阈值。多阈值和多代表点的引入克服了原有聚类算法球形数据集合的限制,增加了算法对边界数据的处理能力,减少了聚类特征树重建的次数,从而提高了聚类的效率。 本文最后基于流行的J2EE框架构造了支持分布式增量数据聚类分析的数据挖掘系统结构,该系统结构采用了XML数据库,并以XML-RPC技术来替代目前常用的RMI技术来实现分布式系统下的功能模块和数据调用的通用接口,从而避免了面对接口的更新,需要不断发布和广播来同步接口信息的麻烦。
其他文献
随着经济高速发展和人民生活水平快速提高,当前机动车数量急剧增加。为了解决交通安全、交通堵塞及环境污染等难题,人们提出了智能交通系统。智能交通系统(ITS)是采用先进的信
蚁群算法是一种最新发展的模拟昆虫王国中蚂蚁群体觅食行为的仿生优化算法,该算法采用了正反馈并行自催化机制,具有较强的鲁棒性,优良的分布式计算机制,易于与其他方法结合等优点
对空间CCD相机的评定主要是通过地面的各种检测设备的反复测试和试验进行保证。结合仿真技术与测试技术,依据空间CCD相机电性接口的分布,建立了地面仿真测试模型,提出了仿真测试
例外挖掘是数据挖掘中的一个重要研究方向,它往往可以帮助人们发现一些真实、但又出乎意料的有用的知识。在数据挖掘的许多应用中,挖掘例外数据比挖掘正常数据具有更高的价值,对
随着网络的普及,随之而来的网络安全问题便越来越突出,针对中小型企业对网络安全防护需要网关功能多样化的需求,本文提出一种复合型安全网关的设计方法,使之适应于中小型网络的使
学位
随着互联网的大规模普及和各行业信息化程度的提高,与行业领域相关的Web文本信息快速积累,如何从这些海量信息中定向提取符合要求的知识,是当前信息处理领域的研究热点。本文
学位
当今世界已经进入信息化时代,信息系统在社会各个领域中得到了真正的广泛应用,信息的重要性被广泛接受。随着许多组织对其信息系统不断增长的依赖性,加上在信息系统上运作业务的
随着Intemet的不断发展,数据可以以越来越多的形式表现出来,如何把这些异构的数据集成起来,是一个十分热门的研究领域。同时,数据集成也是企业信息系统的核心部分之一,它作为一个
因特网的迅猛发展,对承载IP的网络提出了更高挑战,包括路由选择、QoS保障等诸多问题。之前的IP网络大都是基于32位目标地址来完成IP包的路由和转发,受历史原因和技术原因所限