论文部分内容阅读
随着社会的进步和生活水平的提高,人们对于食品的质量与安全有了越来越高的要求。与此同时,食品安全问题形势十分严峻,成为了人们的热点关注话题。食品安全数据中蕴藏着海量信息,如何利用数据分析和挖掘技术来解决食品安全行业面临的问题,成为了当今研究的重点。然而,食品安全领域发展到现在,数据所呈现的大规模、多种类、高维度等特性,严重影响了相关技术的处理效率。一方面,食品安全数据的“维数灾难”使得分类技术得不到令人满意的结果。另一方面,虽然传统的降维技术实现了降维效果,但降低了低维数据的类别判别能力。为了进一步提高食品安全相关数据的挖掘效率,本文通过研究食品安全数据的降维及分类技术,详细分析了传统降维和分类方法的建模理论以及优缺点,并基于食品安全数据的来源与特征和现有降维及分类技术存在的缺陷与问题,以食品相关数据集为主要研究对象,对食品安全相关数据的降维与分类方法展开研究。本文所做的主要工作总结如下:(1)提出基于互信息可信度的主成分分析降维算法。针对食品安全数据集,传统的主成分分析算法存在耗时太长、降维结果一般及不能满足实际分类要求的问题。通过从不同角度对互信息进行研究,引入互信息综合可信度的思想。首先利用互信息综合可信度进行数据矩阵的特征筛选,再运用主成分分析算法降维,提高算法在食品数据集上的降维能力。(2)提出基于类内和类间距离的主成分分析算法。为了改善高维食品安全数据的降维结果,同时提高数据低维表示的判别能力,引入类内和类间距离,通过实现类内距离最小化、类间距离最大化,对数据投影矩阵进行优化,改进了基于信息熵的主成分分析算法,算法在保证高维食品数据集降维结果的同时,提高了低维数据对类别判断的贡献力。(3)提出基于样本选择和余弦相似度的C4.5改进算法。针对大规模食品数据集,为了提高数据集的分类正确率,减少样本训练时间。首先采用统计最优样本大小策略确定最优样本大小;然后将C4.5算法的分类精度作为迭代依据,对最优大小样本集进行高度优化并确定出最佳训练集;之后计算属性之间的余弦相似度,合并训练样本集中高度相似属性对的属性值,更新训练集;最后依据C4.5算法选择最佳分裂属性,构建决策树,提高算法在食品相关数据集上运行效率和分类正确率。