面向高维数据的分类特征选择方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:zhanglangsdkd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘和机器学习领域中重要的研究分支,其目的是根据特征所描述的信息将每个实例准确划分到不同的组中。但随着所收集数据集维度的急剧增加,大量与分类任务不相干和冗余的特征信息被添加到数据集中,这些无关特征信息不仅会增加模型构建的复杂度,还会降低机器学习算法的性能,甚至造成“维数灾难”和“过拟合”问题。特征选择是一种有效的数据预处理技术,能够有效去除与目标任务不相干和冗余的特征信息,降低机器学习算法的计算复杂度,提升所建模型的分类精度和泛化推广能力。因此,针对高维分类问题探索高效的特征选择方法具有较高的研究价值和应用价值。
  粒子群优化算法是受鸟群觅食行为启发而提出的一种智能优化算法,因其具有高效且易实现的优点,因此被广泛应用于解决特征选择问题。但是,在处理高维数据的特征选择时,现有基于粒子群优化算法的特征选择方法大多存在易陷入局部最优、计算成本高、过早收敛和搜索效率低等问题。本文重点对粒子群优化算法在高维特征选择中的关键问题展开相关研究,提出了三种新的特征选择方法,具体研究工作如下:
  (1)针对粒子群优化算法在特征选择过程中易陷入局部最优、缺乏多样性和局部与全局搜索不平衡等问题,在种群初始化方法、参数调整策略和下一代粒子生成机制方面对原始算法进行了改进,提出了一种基于改进粒子群优化算法的特征选择方法(HPSO-SCAC)。该方法不仅可以有效提高机器学习算法的分类性能,还可以显著提升特征子集搜索的效率。在多个真实高维分类问题上的实验结果表明,HPSO-SCAC方法在找到质量较高特征子集的同时,还可以有效增强粒子群优化算法在搜索过程中的收敛性能。
  (2)粒子群优化算法依据个体最优位置(pbest)和全局最优位置(gbest)引导粒子在搜索空间中移动,这种策略具有简单和高效的特点,但当需要确定移动方向的粒子位于pbest和gbest之间时,容易导致粒子在搜索过程中的振荡问题,从而降低粒子群优化算法的搜索效率并错失部分性能较好的解。为此,提出了一种基于特征相关性与代理模型的特征选择方法(SPSO-CUS)。该方法的核心思想是利用特征的相关性信息生成了大量质量较高的特征子集,构建了代理模型对这些特征子集进行预评估,设计了粒子选择策略挑选性能较好的粒子形成下一代初始种群。在高维分类问题上的实验结果表明,SPSO-CUS方法能够获得比同类特征选择方法辨别能力更强的特征子集。
  (3)针对粒子群优化算法在高维数据特征选择中计算复杂度高、搜索效率低等问题,受多任务智能优化方法中知识迁移思想的启发,提出了一种基于多任务智能优化的特征选择方法(MTPSO)。该方法将高维特征选择问题转化为若干个相关的低维特征选择问题,通过在这些低维且相关的特征选择任务之间进行知识迁移完成对最佳特征子集的搜索。与不同类型特征选择方法在多个高维分类问题上进行的对比实验表明,MTPSO方法能够在更短的时间内找到具有较强分类性能的特征子集。
  本文研究成果不仅适用于高维分类任务的特征选择,而且比同类型特征选择方法具有更好的性能指标。同时本文提出的方法也为高维特征选择研究提供了新的思路与方向。
其他文献
随着服务机器人在家庭情景中担任重要的角色,自然的人机交互成为影响用户满意度和人机共存舒适度的关键因素之一。如何在人机交互的过程中注重用户情感的识别、并在理解用户情感状态的基础上,让机器人在复杂多变的家庭环境中提供与情感相匹配的舒适度良好的服务,受到研究学者的广泛关注。由于人类情感的表达是一个复杂连续的过程,目前针对人类情感的识别重点逐渐从离散情感识别过渡到连续情感识别,同时单一模态的连续情感识别存
下三角非线性系统是一类被广泛研究的系统,许多工程问题,例如化学反应器系统、机器人机械臂系统及倒立摆系统等,都可以建模为此类系统。在建模过程中,时滞及输入饱和现象往往是不可避免的,它们会影响系统的正常运行,尤其对于下三角非线性时滞系统,输入饱和所带来的不良影响还没有被很好地解决。因此,研究具有输入饱和的下三角非线性时滞系统具有重要的实际意义。然而,已有成果中大多都是运用反步设计方法进行研究的,设计过
近年来,倾转旋翼无人机因为既有旋翼垂直起降的优势、又有固定翼远距离快速飞行能力,逐渐成为无人机领域的研究热点。现有倾转旋翼无人机机构形式多为在固定翼无人机外部添加多副旋翼,增加了无人机自身的重量。同时倾转旋翼无人机在飞行过程中,旋翼下洗流作用在固定翼上表面,使固定翼上下表面压力差变小,降低了固定翼的升力。  本文提出的两栖倾转翼无人机弥补了倾转旋翼的缺陷,有效避免了旋翼产生的下洗流对固定翼造成的影
反馈非线性系统的研究是控制理论核心内容之一,已被应用到工业、国防及航天等领域,吸引了国内外学者的广泛关注.很多实际工程系统,都可以经过适当的变量替换,建模并转化为反馈非线性系统.为了更好的满足实际系统性能需求,针对具有信息约束的控制研究是非常有意义的.在本文中,信息约束可细分为量化约束、状态约束以及输出约束.它们具有节省通信资源、提高系统安全指数等优点.目前,虽然针对具有信息约束反馈非线性系统的控
交通场景复杂多变,为汽车配备安全可靠的辅助驾驶系统可以大大降低交通事故的发生,提高城市交通运行效率。有经验的驾驶员因选择性注意机制,可以快速定位场景中显著区域,过滤掉冗余信息,抽取与驾驶活动相关的关键信息。因此模仿人类的选择性注意机制,预测交通场景下的显著性区域或者目标,对辅助驾驶系统的发展具有重要的研究意义。本文对复杂交通场景下的驾驶员注意力预测方法展开研究,旨在预测驾驶员的注意力区域或者检测到
学位
近年来,随着人工智能的不断发展以及人们对公共场合安全问题的重视,行人再识别任务成为人工智能领域研究的热点。行人再识别任务,是指判断从多个视野不重叠的摄像头出现的行人图像是否为同一行人,主要通过行人的底层视觉特征与高层不变属性特征进行判断,而不需要行人的主观配合,有着重大的研究价值。另一方面,在海量数据中准确高速的找出目标人物并辨别身份对安防等任务有着重要的应用价值,同时行人再识别的研究对于相册聚类
相比于在平坦地面具有更好运动效果的轮式和履带式机器人,腿足式机器人能够适应更复杂的地形,进行更灵活的姿态控制,有效跨过或躲避障碍物,能够应用到复杂环境的探索、搜救、运输等多方面领域中。四足机器人凭借相对简单的结构、灵活的运动效果、出色的稳定性能和优秀的动态能力等优势,从腿足式机器人中脱颖而出。传统的四足机器人控制方法一般会采用模块化控制器,但模块化控制器设计难度较大,并且需要耗费大量时间进行参数调
智能驾驶汽车通过多种传感器获取信号,感知车辆周围环境以及可能发生的危险,从而做出驾驶决策。与其他信号相比,视频信号包含丰富的语义信息,并且采集设备成本低廉,采集过程方便;然而视频信号也具有背景复杂、运动模糊、目标遮挡等问题,给交通场景理解带来特殊的挑战。本文针对交通场景风险估计问题,提出了对交通风险等级划分的原则,并构建了一种对行车视频中交通场景的风险性进行判断的方法。本文首先利用YOLO算法与D
学位
语音是人类传递信息最重要的途径之一,但现实中的语音信号经常被其他人声混杂或被环境噪声干扰,因此语音分离作为提取混合语音信号中独立语音源的任务,一直以来都是信号处理领域重要的研究方向之一。语音分离任务来源于“鸡尾酒会问题”,常被用作其他语音应用的前置预处理操作,对自动语音识别、助听器开发与人机交互等应用有着重要作用。传统上的语音分离技术多数着眼于单模态语音信号的处理,但随着多媒体应用与信息技术的发展
学位
在社会需求增长和技术发展的持续推动下,移动机器人正逐步走入家庭,为用户提供家政服务。环境建模作为机器人执行家政作业的基础,综合了环境感知、理解和表征等核心技术。然而,机器人作业在开放、动态、非结构化的家庭环境中,仍面临着导航安全性、任务执行高效性、长期自治性等多方面的挑战。如何对复杂家庭环境建立准确的模型,以支持机器人安全、高效、长期自主地执行家政作业,是推动移动机器人进入家庭和实现机器人智能化服