论文部分内容阅读
随着信息技术的飞速发展,我们正在进入大数据时代,海量数据在各个领域中均呈爆炸式增长。“海量”不仅代表数据量大,同时也表示数据的维度高。如何从大量的数据中提取出真正有效的信息是数据挖掘和机器学习研究的主题。特征选择即是其中的一个主要研究方向,其核心任务是从高维数据特征集中挑选出与处理任务相关的有效低维特征子集。本文针对单一特征选择算法在处理数据时存在的无法兼顾运行效率及准确率的问题开展研究,提出了两种改进算法。课题研究得到了浙江省自然科学基金资助,主要的研究工作及成果如下:(1)针对单独使用过滤式特征选择或封装式特征选择算法处理高维数据时表现不佳的问题,提出了一种参数自动优化的两阶段特征选择融合算法。首先引入最大互信息系数,按照特征-类别属性的相关度对特征进行初筛,然后基于皮尔逊相关系数进一步删除剩余特征中的冗余特征。最后基于遗传算法对前述两个特征选择过程中的两个超参数自动进行优化,构建了参数自动优化的特征选择融合算法。该融合算法结合了封装式特征选择算法具有较高的关键特征辨识能力以及过滤式特征选择算法能够快速筛选出与目标类别相关特征的优点,有效降低了特征集的维数,同时确保获取的子集分类准确率处于可接受范围内。(2)针对单一启发式算法搜索能力有限的不足,本文将鲸鱼优化算法及模拟退火算法相结合,提出了一种基于混合优化的封装式特征选择算法。算法选取最大相关最小冗余准则作为特征选择的评价准则,首先引入鲸鱼优化算法对整个特征空间进行较为详尽的搜索,然后通过模拟退火算法改进鲸鱼优化算法在每轮迭代中获取的最优解。此算法中鲸鱼优化算法用来锁定最可能存在全局最优解的区域,模拟退火算法进行有效的局部搜索,二者结合共同提高特征选择算法的搜索效率。(3)基于Qt应用程序开发框架,构建了特征选择算法的可视化操作软件。该软件具有数据集导入,参数设定,分类器选择,结果显示等功能。