基于极大相容块邻域粗糙集特征选择方法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:xdt1973
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的高速发展催生了大数据时代,人类生产生活的各个领域数据海量增长。数据特征的高维性是大数据的重要特性之一,给数据挖掘带来了严峻挑战,特征选择和特征抽取是数据降维的两种主要途径。与特征抽取相比,特征选择可以保持数据表示维度的原始语义,有利于数据挖掘结果的解释。粗糙集理论是特征选择的有力工具。邻域粗糙集是经典粗糙集模型的重要拓展之一,适宜于在距离空间中表示的高维数据特征选择。针对数值型数据,本文将极大相容块概念与邻域粗糙集相结合,建立了一种极大相容块邻域粗糙集模型,并将模型分别应用于单标记特征选择和多标记特征选择问题上,设计了相应的特征选择算法。论文的研究内容和结论如下:(1)基于极大相容块邻域粗糙集的单标记特征选择方法现有的邻域粗糙集模型仅关注那些邻域中所有样本都属于同一个决策类的一致性情形,无法利用邻域中与多个决策类相交的边界样本所蕴含的信息。针对这一局限性,将相容关系的极大相容块与邻域粗糙集相结合,选取样本邻域内的最大等价块作为最小的信息粒,通过重新定义邻域粗糙集的上下近似和属性重要度等概念,建立了极大相容块邻域粗糙集模型。该模型可在更小的信息粒度下将原来边界样本转化成一致性样本来增大正域。运用前向贪婪策略提出了相应的单标记特征选择算法。在7个公开的UCI数据集上的对比实验验证了提出方法的有效性。(2)基于极大相容块邻域粗糙集的多标记特征选择方法不同于单标记数据,多标记数据的每个样本可能有多个标记。从数据的粒化角度看,多标记学习的样本在决策属性空间进行粒化的问题复杂度较高。使用等价关系进行粒化,容易导致等价类的种类较多和类内样本较少,粒化效果差,导致多标记粗糙集模型效果不佳。为此,本文从标记角度对样本在决策属性空间进行粒化,定义了新的上近似和下近似等概念,建立了新的粗糙集模型,并利用前向贪婪策略提出了多标记特征选择算法。在5个公开的mulan多标记数据集上进行了对比实验,验证了提出算法的有效性。
其他文献
自主驾驶技术是世界各国共同关注和积极推动的面向未来的交通新技术。目前,自主驾驶的主要研究方式是通过实车测试或仿真测试收集不同道路场景数据来训练和优化车辆模型,解决
在故障诊断研究中,对残差信息采用不同的度量将对模型和数据驱动方法产生至关重要的影响。通常采用欧式距离作为经典的残差度量方式,尽管能够反映系统偏离正常行为的程度,但
在雾霾恶劣的天气条件下,悬浮在大气中的微小颗粒对光线的散射和吸收作用,导致采集到的图像对比度、能见度和饱和度降低,色调偏移,颜色失真,这严重影响了户外视觉系统的效用
多目标跟踪(Multi-object tracking,MOT)是视觉监控领域的前沿课题,其重要的军事和民用价值引起了广泛的关注。本论文在公开监控序列集和检测响应集的基础上,以图像序列中行
在人机交互、自动驾驶等领域,人眼视线估计发挥着巨大的作用。目前人眼视线估计方法的效果深受其训练数据的质量所影响,视线估计的训练数据主要包含两个类型:人眼真实图像和
进入21世纪以来,计算机的快速发展以及大数据的普遍应用,使得通过人机交互工作的方式成为人们工作生活重要的组成部分。其中,手势识别是人机交互方式中比较简单和自然的识别
调制样式识别是非协作通信过程中重要环节,是完成解调进而获取信息的前提,常用于电子侦察、电子干扰和频谱监管等,有着重要的军用和民用价值。近年来,机器学习发展迅速,受到
运动捕捉是一种对人体运动时空结构进行数字化表征的方法。近年来,随着动作捕捉数据技术的广泛应用,动作捕捉数据库的数据容量越来越大。随着动作捕捉数据量的增加,为了提高
随着大数据时代的到来,新闻、微博、报纸等信息量呈现爆炸式的增长,极大地满足了人们的阅读需求。但同时各媒体信息难免会重复,且文本质量层次不齐,标题与内容偏差较大等现象
基于多波长光纤激光器(MWFL)的传感器,使用光波作为传感信号,光纤作为传输介质,来感知和探测外界被测信号,在传感方式、传感原理以及信号的探测与处理等方面都与传统的电学传