【摘 要】
:
特征选择作为机器学习和数据挖掘任务的重要数据预处理技术之一,其目的在于从原始特征中选择相关特征子集,以获得更好的预测结果,更低的计算成本和更好的模型解释性。然而,在实际应用中,如信息检索、生物特征识别中广泛存在大样本数据和高维数据给现有的特征选择算法带来巨大挑战。现有的特征选择算法将特征数和所选特征子集上的精度加权为一个目标,利用梯度法求解,虽然可以获得好的效果,但是需要有先验知识,并且要求优化函
论文部分内容阅读
特征选择作为机器学习和数据挖掘任务的重要数据预处理技术之一,其目的在于从原始特征中选择相关特征子集,以获得更好的预测结果,更低的计算成本和更好的模型解释性。然而,在实际应用中,如信息检索、生物特征识别中广泛存在大样本数据和高维数据给现有的特征选择算法带来巨大挑战。现有的特征选择算法将特征数和所选特征子集上的精度加权为一个目标,利用梯度法求解,虽然可以获得好的效果,但是需要有先验知识,并且要求优化函数是凸和光滑的。本文将特征数目和该特征子集上的精度作为两个独立的目标,以多目标的方式求解,并采用具有良好全局搜索能力的进化算法作为优化工具。本文针对性的提出了两种特征选择算法,分别用于解决大样本数据和高维数据下的特征选择问题。本文的主要工作包括以下两个部分:(1)大样本数据下的特征选择问题。由于样本数目大,导致计算代价昂贵。本文以训练数据量为O(n2)的Pairwise排序问题为例提出基于进化多目标优化的特征选择算法MOFSRank,该算法包括三个策略:1、多目标实例选择策略:该策略从训练实例中选择具有代表性的实例,通过消除训练实例中可能存在的冗余数据,给后续的特征选择选取数目少、代表性强的实例;2、多目标特征选择策略:在上述工作的基础之上,同时为了进一步提升算法在特征选择中的性能,本文采用了一个自适应的变异概率,以得到排序精度高、冗余度低的特征子集;3、Pareto集成策略:该策略采用了一个混合集成思想,利用集成的思想,将策略2的所得Pareto最优集中的非支配个体加以集成,以产生更好的特征组合。实验结果表明,MOFSRank算法可以在选取较少特征的情况下达到很好的排序结果。(2)高维数据下的特征选择问题。由于存在巨大的搜索空间,需要大量的评价次数从而使优化过程付出巨大的计算代价。本文针对此问题提出基于进化多目标优化的指导模型算法GMA。该算法包括两个策略:1、自适应缩减策略:该策略可以快速剔除不相关和冗余特征,降低搜索空间。同时,实验结果表明当数据维度越高,其优势更为明显;2、指导模型预筛选策略:该策略利用已有的函数适应度值训练指导模型,并让指导模型帮助筛选种群个体,因此能减少真实评价次数,加速算法搜索。在多个高维数据集上的实验结果表明,GMA算法可以在高维数据集中,以较低的计算代价获得更好的特征子集。
其他文献
纵观中国书法发展史,魏碑上承汉晋,下启唐宋,在中国书法史上的地位尤为特殊,对后世书法的影响很大,也是今天人们学习书法的典范。该文以《张猛龙碑》《张玄墓志》《元桢墓志
我国经济已由高速增长阶段转向高质量发展阶段,正处在转变发展方式、优化经济结构、转换增长动力的攻关期。在国家相关政策的影响下,混凝土行业正逐渐由高速成长期步入中低速增长的稳定发展期。从混凝土行业发展现状来看,行业挑战不断加剧,转型升级趋势明显:一是行业内的产能过剩、同质化竞争,已严重制约了行业的发展,行业并购将成为大方向;二是随着国家环保要求不断提升,行业竞争加剧,盈利空间进一步压缩,对于行业企业而
双线性卷积神经网络在图像分类任务中研究的是细粒度图像分类问题。细粒度图像分类在计算机视觉领域是一个重要的研究方向,这一任务的目的是在粗粒度图像中进行子类别的划分,其在生态和物种保护的应用中能够起到十分重要的作用,因此有着广阔的研究和发展前景。由于在细粒度图像中,子类别物体之间的差异通常比较细微,因此一般只能依靠微小的局部差异来完成分类任务,如何更好地构建细粒度图像分类模型成为了这一任务的研究重点。
随着社会经济的快速发展,能源浪费和环境污染问题也愈加凸显。为了提高能源利用效率和改善能源结构,为了阻止化石能源的枯竭,减少环境的污染,分布式电源成为了世界很多国家研
森林资源是对我国十分重要的可再生资源之一,由于我国发展初期对天然林的过度利用,导致我国天然林受损严重,且不易恢复,因而,大力发展人工林是解决我国天然林资源不足与生产
<正>"科技要发展,计量须先行"。早在20世纪50年代,我国已经开展气象仪器计量工作。从1954年中央气象局成立仪器技术科至今,气象计量已走过了六十四个年头。我国气象计量事业
川西微晶白云母是一种2M1层状硅酸盐结构的矿物,具有电阻率高、耐老化和良好的绝缘性等优异性能;聚苯胺具有合成简单、化学稳定性好、导电率高等优点,广泛应用在电磁屏蔽、吸
社会福利制度是在特定的社会制度下,针对社会成员的生存诉求以及现有的生产要素状况形成的系统性制度布局。新中国的社会福利制度是以人民群众为主体、以共同富裕为目标、坚持以社会主义公有制为经济基础、不断保障人民基本生活和精神文化生活的制度。对中西方的社会福利制度进行对比,可以看出新中国的社会福利制度有着鲜明的中国特色。新中国成立以后,我国的社会福利制度经历了三个阶段的历史演进,即新中国社会福利制度的初创时
随着现代电子信息技术、材料技术和其他许多技术领域的迅速发展,现代战争逐渐向科技情报战、电子战的方向发展。雷达作为现代战争的主要探测手段之一,需要具有在强杂波和噪声中检测和识别目标的能力。目标检测与识别问题作为雷达信号处理的重要分支,在军事、民用方面具有深远的意义。雷达在完成对海面目标检测、跟踪时,都会面临海洋背景下的目标有效检测问题。另外,现代战场感知对信息获取提出越来越高的要求,雷达目标识别这一
<正>人工智能在智能道路领域的应用智能公路建设,需充分考虑其功能定位及项目特点。而智能高速公路,"安全"是首先要考虑的因素。从智能路况感知、智能交通诱导、智能视频调度