论文部分内容阅读
在现实世界中,我们的研究离不开各种各样的大量数据。然而,因为现在数据采集技术的不完善以及采集到的数据本身存在许多冗余的噪声,所以如果想要在分类过程中提高分类精度,降低算法的复杂性,减少运行过程中占用的存储空间,就需要删除采集到的数据中的不相关信息,从而达到去除数据噪声的效果。根据现有的常用手段,降维技术经常被用于数据去噪。通过比较原始数据集与去除噪声之后数据的相似性,可以将降维技术分为特征提取和特征选择。特征提取与特征选择一样,他们两者都是根据原有特征,找到最能区分样本类别的一个或者多个特征。伴随着计算机技术的发展以及我国科研的进步,最近这几年时间互联网和硬件设备正在高速发展,所以在日常生活中自然而然地产生了大量的数据。所谓大数据时代的来临,就是因为这些新产生的数据本身蕴含着很多有价值的内容,人们通过深入研究这些新产生的数据可以帮助现有的医疗、网购、金融以及空间信息等领域进一步发展。要想数据能够被医疗、网购、金融以及空间信息等领域所应用,首先需要对数据进行收集和整理。然而,现实中被收集到的数据包含了很多冗余以及不相关的信息,这是由设备、技术和某些非人为的因素所造成的。这些冗余以及不相关的信息会给数据的表示、存储以及分析处理等工作带来巨大的困难,以致于可能会使得数据所蕴含的有效信息无法被准确的获取。由于采集到的数据规模大、维度高、冗余度高,数据挖掘和机器学习等领域的数据分析技术便迎来了重大挑战。所以本文采用基于群智能优化算法的特征选择方法。因此,本文主要从以下四个方面进行特征选择的研究:(1)将蜻蜓算法与花朵授粉算法相融合,在蜻蜓寻找到较优食物后,更加深入的局部开发,提升精度,提出蜻蜓花朵授粉算法;(2)为了使得提出的算法能应用于特征选择中,将融合后的算法进行离散化;(3)提出基于融合蜻蜓算法和花朵授粉算法的特征选择方法,并使用支持向量机作为分类器,名为离散蜻蜓花朵授粉算法;(4)将提出的方法在特征选择问题上进行应用,并和其它同类方法进行对比研究。为了验证本文提出新特征选择算法的有效性及效率性,本文选取了UCI数据集中常用的6个数据集,对离散蜻蜓花朵授粉算法进行测试。最后通过对比经典和国内外最近的特征选择算法,可以发现本文提出的算法在大部分数据集中都优于对比算法。因此本文提出的特征选择算法具有良好的理论意义及应用价值。