论文部分内容阅读
随着信息技术快速发展,全球数据呈现爆发式增长。不论是数据的量还是数据的种类数都在不断上升,对数据的研究也变得越来越复杂,而海量数据的背后往往蕴含着丰富的价值和知识。数据挖掘就是一种致力于从海量的数据中提取出有价值的信息、知识以及内在规律或潜在模式等等的新兴技术。它可以实现数据从数值到价值和知识的转化,面对大数据时代的纷繁复杂的数据类型和庞大的数据量,数据挖掘技术也在遭受着前所未有的挑战。
目前分类及聚类算法是数据挖掘的两大重点研究内容。分类是通过从已有标签的数据中训练得出规律,应用规律对其他数据进行分类。聚类是将数据按照相似性进行划分为若干个内部较为相似但是互相之间差别较为明显的簇。模糊极小极大神经网络是一种既可以用作分类,也可以用作聚类的在线训练的神经网络,避免了传统网络需要迭代训练和信息遗忘等缺点。本文围绕模糊极小极大神经网络的改进研究及应用做了如下工作:
首先,本文选择模糊极小极大神经网络最为流行的变体强化模糊极小极大神经网络分类算法来进行改进。通过利用模糊格理论中的包容性测度对强化模糊极小极大神经网络分类算法中的隶属度函数进行替换来提升了算法性能。并在公测数据集上进行了验证,实验结果表明改进后的分类算法在精度、F1分数,以及准确率上都表现良好。
其次,由于强化模糊极小极大神经网络分类算法的规则改进及结合模糊格包容性测度的改进方法的有效性已经得以证明。因此本文尝试将强化模糊极小极大神经网络分类算法的规则改进推广到原始模糊极小极大神经网络聚类算法中,并同时采用模糊格包容性测度作为隶属函数。在公测数据集上的实验表明,改进后的聚类算法在精度、调整兰德指数、CH指数等指标上都表现良好。
然后,将改进后的基于模糊格包容性测度的强化模糊极小极大神经网络分类算法应用到农产品线上销售预测问题中,以玉米销售数据为例。通过将玉米销售数据划分到相应的预先设定好的各个销售等级类别中,以此来实现玉米销售情况的预测。并将改进后的基于模糊格包容性测度的强化模糊极小极大神经网络聚类算法应用到农业循环经济分区问题中,以黑龙江省为例。选取了16个指标组成了农业循环经济分区指标体系。将黑龙江省划分为了4个农业循环经济发展区,并综合分析了各区的资源,产业特点给出了适合各地区的发展建议。
本文提出了模糊极小极大神经网络的两个改进版本,分别针对分类和聚类两方面。并在公测数据集中证明了两种改进模型的有效性和可靠性。本文提出的改进方法能提高分类和聚类算法中的相似性测度能力,减少了原算法参数,也改善了原算法运算空间和所能处理的数据类型的局限性,更符合当今数据类型复杂且数据量巨大的大数据时代。同时,改进后的方法还被成功应用在了农业领域的问题中,成功解决了农产品线上销售预测问题和农业循环经济分区问题。说明该方法在具有理论意义的同时还具有丰富的实际意义。
目前分类及聚类算法是数据挖掘的两大重点研究内容。分类是通过从已有标签的数据中训练得出规律,应用规律对其他数据进行分类。聚类是将数据按照相似性进行划分为若干个内部较为相似但是互相之间差别较为明显的簇。模糊极小极大神经网络是一种既可以用作分类,也可以用作聚类的在线训练的神经网络,避免了传统网络需要迭代训练和信息遗忘等缺点。本文围绕模糊极小极大神经网络的改进研究及应用做了如下工作:
首先,本文选择模糊极小极大神经网络最为流行的变体强化模糊极小极大神经网络分类算法来进行改进。通过利用模糊格理论中的包容性测度对强化模糊极小极大神经网络分类算法中的隶属度函数进行替换来提升了算法性能。并在公测数据集上进行了验证,实验结果表明改进后的分类算法在精度、F1分数,以及准确率上都表现良好。
其次,由于强化模糊极小极大神经网络分类算法的规则改进及结合模糊格包容性测度的改进方法的有效性已经得以证明。因此本文尝试将强化模糊极小极大神经网络分类算法的规则改进推广到原始模糊极小极大神经网络聚类算法中,并同时采用模糊格包容性测度作为隶属函数。在公测数据集上的实验表明,改进后的聚类算法在精度、调整兰德指数、CH指数等指标上都表现良好。
然后,将改进后的基于模糊格包容性测度的强化模糊极小极大神经网络分类算法应用到农产品线上销售预测问题中,以玉米销售数据为例。通过将玉米销售数据划分到相应的预先设定好的各个销售等级类别中,以此来实现玉米销售情况的预测。并将改进后的基于模糊格包容性测度的强化模糊极小极大神经网络聚类算法应用到农业循环经济分区问题中,以黑龙江省为例。选取了16个指标组成了农业循环经济分区指标体系。将黑龙江省划分为了4个农业循环经济发展区,并综合分析了各区的资源,产业特点给出了适合各地区的发展建议。
本文提出了模糊极小极大神经网络的两个改进版本,分别针对分类和聚类两方面。并在公测数据集中证明了两种改进模型的有效性和可靠性。本文提出的改进方法能提高分类和聚类算法中的相似性测度能力,减少了原算法参数,也改善了原算法运算空间和所能处理的数据类型的局限性,更符合当今数据类型复杂且数据量巨大的大数据时代。同时,改进后的方法还被成功应用在了农业领域的问题中,成功解决了农产品线上销售预测问题和农业循环经济分区问题。说明该方法在具有理论意义的同时还具有丰富的实际意义。