【摘 要】
:
随着科技发展以及互联网的普及,海量数据为机器学习与数据挖掘研究领域带来了新的挑战。高维数据集中通常伴有大量无关特征使得分类过程被混淆且计算时间增加。如何定义有用特征,并利用相关特征提升数据质量成为了当下研究的热点。数据挖掘与模式识别领域的数据预处理方法如特征选择,通常指的是使用候选算法找到最优特征子集的过程。这一方法的主旨在于其可以找到最有用且相关的特征以提高数据处理的有效性,加速模型训练时间并简
论文部分内容阅读
随着科技发展以及互联网的普及,海量数据为机器学习与数据挖掘研究领域带来了新的挑战。高维数据集中通常伴有大量无关特征使得分类过程被混淆且计算时间增加。如何定义有用特征,并利用相关特征提升数据质量成为了当下研究的热点。数据挖掘与模式识别领域的数据预处理方法如特征选择,通常指的是使用候选算法找到最优特征子集的过程。这一方法的主旨在于其可以找到最有用且相关的特征以提高数据处理的有效性,加速模型训练时间并简化分类器以维持或提升分类器的性能。特征选择问题可以被视为一类NP难组合优化问题。本文采用群智能算法对特征子集选择过程进行优化。飞蛾火焰优化算法(Moth-flame optimization algorithm,MFO)是由于其稳定且有效,很容易用于解决优化领域的问题。因此,飞蛾火焰优化算法在解决复杂优化问题上得到了研究人员的广泛使用。本文将着重研究该算法并将其应用于解决特征选择问题。虽然飞蛾火焰优化算法具有一定的优势,但是在优化复杂实际问题时依然存在着收敛速度慢且易陷入局部最优的问题。基于此,针对特征选择搜索策略,本文提出三种新的基于改进飞蛾火焰优化算法的特征选择方法,并将该算法与分类模型结合,应用于金融风险预测、疾病诊断等案例,以进行基于改进优化算法的特征选择方法研究。本文主要贡献如下:(1)为了克服标准飞蛾火焰优化算法易陷入局部最优的问题,我们提出一种基于双策略的改进飞蛾火焰优化算法。本文第一部分,高斯变异机制首先被引入飞蛾火焰优化算法的种群更新机制以提高算法种群多样性。其次,将混沌局部搜索机制引入算法的最优火焰更新进程以提高算法跳出局部最优解的能力。随后,本文将该改进飞蛾火焰算法应用于核极限学习机模型(Kernal extreme learning machine,KELM)模型参数优化问题并同时完成特征选择任务,最终将该模型应用于金融风险问题以验证本文所提模型的有效性。(2)特征选择问题被视为一类二进制优化问题,搜索空间中的解被限制为0、1两位数。因此,本文第二部分,提出了一种基于交叉变异的飞蛾火焰优化算法进行特征子集的迭代寻优。在本部分中,ELM(Extreme learning machine,ELM)模型主要用于对所选特征子集进行评估以及对大鼠肝肾中毒预测问题进行预测以找到该案例中最重要的特征。(3)最后,在前面两部分的工作基础上,本文第三部分提出了一种基于转换函数、交叉操作、特征聚合及模拟退火扰动机制的改进飞蛾火焰优化算法,用于特征选择。该方法通过改进机制增加算法搜索最优特征子集的能力,并通过两类不同的转化函数将搜索所得结果转化为二进制解。KNN(k-Nearest Neighbor,KNN)分类器通过所选特征长度及分类错误率对改进该算法中的每个搜索个体进行评估。30个来自UCI机器学习数据库(University of California,Irvine,Repository of machine learning databases)的不同维度的数据集被用于评估所提特征选择模型的搜索能力及分类准确性。实验结果证明了本文提出的模型的可行性,也表明本文所提模型在降低分类错误率及选择重要特征的任务上较为适用。
其他文献
自然场景的文本检测是指对图像中单词或文本行的边界框进行定位的一项技术,随着社会对于人工智能技术的需求不断增长,推动着人工智能飞速地发展,而文本检测作为人工智能的一部分,在这样的发展过程中也逐渐成为不可或缺的一项技术,拥有广阔的应用前景。目前,深度学习已成为文本检测领域的重要方法,各个基于深度学习的文本检测算法已经取得了较好的检测结果,在实际应用中也有良好的表现,然而对自然场景下的中文文本检测的研究
随着互联网技术的快速发展,机器学习分类已广泛应用于日常生活的多个领域。分类算法通过对已有的数据进行分析并且建立模型,从而对未知数据进行预测。目前,已经有了很多成熟的分类算法,比如支持向量机、决策树、神经网络等,这些算法大多是针对平衡数据集而设计的。但是,在实际应用中,数据集大多都是不平衡的。这些分类算法在对不平衡数据进行分类时,往往比较注重数据集整体的分类准确率,而少数类样本的分类准确率比较容易被
近年来,随着半导体制造工艺和设计技术的高速发展,集成电路的性能也在不断提高。各种以集成电路为基础的高新技术如人工智能、自动驾驶、生物医疗、物联网和5G技术等也在推动着集成电路的高速发展。数字集成电路具有高集成度和易于大规模开发等优点,可广泛应用于通用计算、信号处理等技术领域。在处理自然界各种模拟信号时,为了利用数字集成电路强大的信号处理和计算能力,需要使用模数转换器(Analog-to-Digit
武器系统特别是军用电子设备的飞速发展,对电子系统的健康状态提出了更高的要求。飞行器信息处理设备是导弹制导的重要组成部分,主要负责对弹上采集系统采集的制导图像进行信息处理,并将图像处理结果同时发送给飞行控制组合和人机交互界面进行显示。通过对信息处理设备硬件组成进行分析,其故障可划分为系统突发性故障和系统渐变性故障。本文对系统突发性故障进行了故障诊断研究,对系统渐变性故障进行了故障预测研究,并搭建了测
目的:氨是机体含氮物质代谢所产生的毒性副产物,也是诱发肝性脑病的主要生物毒素。近期研究发现,氨作为一种新型自噬诱导剂,促进肝细胞自噬的同时,利用自噬改善肝细胞的尿素
据统计,每天都有数以万计新的学术文章出版,如此庞大的文献数量导致信息过载问题日益突出。引文推荐,作为克服这一困难的重要解决方案,聚焦于智能化地从文献数据库中产生与查询文章相关的文献列表,近年来越来越受到学者们的关注。在引文推荐问题中,可以利用文章的多样化信息来解决问题。因此,网络范式可以有效地捕捉文章语义和结构信息。近年来,基于网络表示学习的引文推荐倍受关注,但如何充分耦合文章的语义和结构特征仍具
在当今物联网和大数据飞速发展的时代,图像是人们获得信息的主要途径之一。图像传感器模数转换器(Image Sensor ADC)作为将图像信号转换为数字信号的主要工具,其广泛的应用在安防、医疗、摄影等领域,如何能够准确地采集到图像信息是一件充满挑战的工作。按传感器件结构进行划分,图像传感器主要包括电荷耦合器件(Charge Coupled Device,CCD)图像传感器图像传感器和CMOS图像传感
以19省市为主导的新一轮对口援疆工作是中央对新疆工作总体部署的重要组成部分,也是一项“制度创新”和“国家战略”,更是推进新疆经济社会发展的重要外部力量。新疆作为西部
铁电陶瓷材料在电场作用下能够发生微小形变,该形变在驱动器、压电传感器、微位移器等领域具有重要应用。目前,市场中使用的铁电陶瓷材料主要是铅基材料,由于铅基材料在制备
随着互联网的发展,大数据时代的来临,人们获取信息的方式更为方便。网络的便捷性让人们获取信息的渠道不再拘泥于报纸、广播和电视等传统媒体,信息由单向传播逐步向双向传播