论文部分内容阅读
随着农业信息技术的快速发展,农业数据在快速积累和增加,对农业数据进行分类的需求也越来越多。如何将这些农业数据快速有效地转化为有价值的信息,是当前信息计算机技术领域研究的重要课题。由于这些农业数据具有动态性、地域性、异构性、时效性等特点,导致农业数据的分类问题的难度不断增加。传统的分类算法在处理问题时都要以样本数趋于无穷大为假设前提,许多算法需要建立精确的数学模型,在现实问题中,这些算法往往表现的不佳。支持向量机是一种通用的机器学习方法,与以前的机器学习方法相比,它具有许多理论和实践上的优势,很好地解决了非线性、维数灾难、建模难等问题。本文针对农业数据的特点,在分析传统分类算法考虑不足的基础上,提出基于支持向量机的农业数据分类方法,重点解决了农业数据分类的两个关键问题:分类精度不够高的问题,训练速度慢的问题。提出两种核函数的改进方法,并通过实验证明了本文方法的可行性和优越性,较好地提高了核函数的学习分类能力。本文所做的工作和研究成果包括下列几个方面:1.详细介绍了分类算法的基本理论,对SVM分类算法和SMO算法的基本概念、推导过程、优点和不足进行分析与研究,通过多组实验数据对几种典型的分类算法进行了性能对比测试,根据分类器的各项评价指标对其进行对比与分析。2.本文对序列最小优化算法的核函数进行深入研究,提出一种改进方法,在对测试样本分类误差率的期望上界的分析的基础上,使用减少支持向量数的方法来减小分类误差率,对二次项系数的绝对值的增大提高了分类正确率,结合网格搜索法优化基于核函数改进的SMO算法的相关参数。通过实验结果证明,在大数据情况下,该方法能较好的克服SMO算法的缺陷,提高了分类正确率,且大幅度降低了建模时间。3.研究了核函数的两种主要类型:局部核函数与全局核函数,并通过实验比较了核函数的学习分类能力。结合这两种类型核函数的特性,将Poly核函数与RBF核函数进行线性混合,构造出一种混合核函数,结合网格搜索法优化基于混合核函数的SMO算法的相关参数。实验结果表明,混合核函数比Poly核函数和RBF核函数的性能更好,不仅具有较高的分类正确率,而且相对于RBF核函数,降低了时间复杂度,节省大量的训练时间。本文对于农业数据分类方法与理论的深入研究,研究出更加快速精确的方法对收集到的农业数据进行处理,对我国在农业方面的研究及科学技术发展的进一步提高,具有重要的价值和意义。