【摘 要】
:
Pawlak粗糙集模型是粗糙集理论中最经典的模型,它通过确立一种等价关系使论域粒子化,非常适合处理离散型数据,但是对于生活问题中常见的数值型数据,Pawlak粗糙集模型却只能将数值型数据离散化以后再进行处理。为了能够直接处理连续的数值型数据,学者们提出了邻域粗糙集模型。运用邻域粗糙集理论可以直接地处理各种符号类型、数值类型以及混合属性类的大量数据,已被广泛应用于人工智能、模式识别与数据挖掘等科学研
论文部分内容阅读
Pawlak粗糙集模型是粗糙集理论中最经典的模型,它通过确立一种等价关系使论域粒子化,非常适合处理离散型数据,但是对于生活问题中常见的数值型数据,Pawlak粗糙集模型却只能将数值型数据离散化以后再进行处理。为了能够直接处理连续的数值型数据,学者们提出了邻域粗糙集模型。运用邻域粗糙集理论可以直接地处理各种符号类型、数值类型以及混合属性类的大量数据,已被广泛应用于人工智能、模式识别与数据挖掘等科学研究领域。利用邻域粗糙集进行特征选择和分类也成为了研究热点。通过定义不同的邻域粒度能够得到不同的邻域粗糙集模型。然而已经存在的邻域粗糙集模型对由多种类组成的数据不能很好的描述,所以本文的主要工作如下:首先,将一种改进的k近邻算法融合进k最近邻域粗糙集中,该模型为本文提出的粗糙集模型,称为可变k最近邻域粗糙集。这种粗糙集模型对由多种类组成的数据有较好的处理能力,相比之前的粗糙集模型更加细化了邻域粒度,克服了固定k值对实验的影响,从而能够提高分类精度。且本文在该模型的基础上,设计了一种特征选择算法,并通过一些实验充分验证该特征选择算法的有效性。其次,本文在该可变k最近邻域粗糙集的基础上,提出了一种二分类三支决策算法。该分类算法主要分为通过训练数据得到近邻信息和利用近邻信息对测试数据进行分类两部分,为了在测试数据的过程中能够利用到训练数据所得到的数据信息,本文提供了一种类似于ID3算法的决策树策略,在训练数据以后,将测试阶段需要的信息存储到决策树中,这样在测试阶段,就可以通过查询决策树获取相关的信息。另外,在三支决策分类算法中,对于边界域中的未分类的样本,我们还提出了一种使用距离加权的分类算法。实验结果表明本文提出的基于可变k最近邻域粗糙集的三支决策分类算法可以取得较好的分类结果。
其他文献
多媒体数据是网络大数据的一种主流表示形式,并呈现出海量、高维、异构等特性。如何在大规模多媒体数据中,快速、准确地检索出目标数据是计算机研究领域的一个基本问题,其解决方案被广泛地应用于诸如物体检索、身份识别、三维重建等场景中。不过,高效的近邻查询一般需要借助数据的提前索引,而多媒体数据的高维特性使得多数传统索引技术失效,并导致精确近邻的查询效率急剧下降。近似最近邻检索技术脱颖而出,逐渐成为解决上述问
生物医学事件抽取以结构化的形式展示了海量生物医学文献中生物分子之间细粒度的复杂交互关系,为科研人员了解生物机理和攻克医学难题提供了重要依据。一个完整的生物医学事件由触发词和事件元素组成。触发词引起了整个生物医学事件的发生,并且决定了生物医学事件的类别。事件元素是生物医学事件的重要组成部分,在生物医学事件中扮演着重要的角色。因此,本文紧紧围绕生物医学事件抽取中的两个关键问题——触发词识别和事件元素检
程序开发人员在软件开发的过程中往往会遇到许多技术问题,提出具体问题并从在线专家那里得到有针对性回答的方式是当前最常用的方式之一。但是程序开发人员所提问题回复时间的长短取决于很多因素,包括问题的表述方式,问题表述的细致度,问题类别的数量,在线并对问题感兴趣的用户数等等。相关的研究工作集中在预测问题是否会在给定的时间间隔内被回复,而没有预测出其具体的回复时间。准确高效地预测问题的回复时间能够让用户对其
软件缺陷往往仅分布在少数代码中,但是这些少量的软件缺陷会给软件系统安全运行带来潜在的严重威胁。软件缺陷的不平衡分布,严重制约了软件缺陷预测(SDP)的准确度。因此,如何在软件缺陷预测中解决缺陷分类的不平衡分布问题,进而提升预测精度,是软件测试中一个重要问题。针对上述问题,本文提出一种基于合成少数类过采样技术(RSMOTE)的数据不平衡处理方法(RSMOTE-Based Data Imbalance
高光谱遥感技术能够提取地物的精细光谱特征,在目标识别方面拥有不可替代的优势。近年来随着高分五号等遥感卫星的发射,高光谱遥感技术得到了突飞猛进的发展,其中高光谱分类是指对目标图像的每一个像元划分出唯一的地物类别,在精准农业、地质探测及军事检测等领域都有着广泛的应用。相比于传统的分类方法,卷积神经网络(CNN)为代表的深度学习方法能获得更具判别性的特征表示,被成功用于高光谱分类领域。然而,由于高光谱遥
区块链技术是一种分布式账本技术,汇集密码算法、分布式数据存储、博弈共识算法等多种技术于一体,具有去中心化、去信任、不可篡改等特点。2014年,比特币在去中心模式下令人惊叹地稳定运行五年后,其背后的核心技术——区块链(Blockchain)被揭示。从此,区块链技术得到越来越多的关注,并迅速应用到各个领域。但是,由传统技术实现的区块链早期解决方案远不能够满足实际应用需求,区块链核心技术亟待创新与突破。
随着光学遥感成像技术的发展和深入,可获取的不同空间尺度、不同光谱范围和不同时相信息的遥感图像数据越来越丰富,其中,高光谱(hyperspectral image,HSI)遥感图像因其具有较高的光谱分辨率,在环境检测、灾害预警、城市规划、精准农业以及地质勘察等领域都有着十分重要的应用。然而,受成像设备限制,现有的高光谱成像系统往往无法获得同时具有高光谱分辨率和高空间分辨率的图像数据,从而限制了其在各
金融时间序列预测是一种利用统计工具或技术手段揭示金融时序的历史规律,预测未来发展趋势的技术,一直以来都是金融工程和企业风险管理的前沿领域,对于政府、企业和投资者都具有重要的指导意义。人工智能及深度学习算法兴起以后,在金融时间序列分析与预测方面得到了快速应用。本文基于深度森林与生成对抗对抗网络对金融时序预测进行了研究,主要工作如下:1、给出了一种基于深度森林的特征选择算法。针对将金融时间序列技术指标
车辆重识别旨在非重叠摄像头视角下识别特定车辆。由于不同摄像机视角下采集到的车辆图像易受光照、拍摄角度、分辨率及背景等环境因素的影响,并且不同车辆可能具有相同品牌、型号和颜色,因此很难通过全局外观对车辆进行区分。与全局外观相比,车辆的局部区域可能具有较为详细的视觉信息,例如车标、车灯等。针对这一问题,本文提出基于局部感知的车辆重识别算法(Research on Local-aware Based V
乡土企业与农民利益联结是乡村振兴战略的基本要求,也是推进农业农村现代化的有力抓手。对鄂西M镇“茶长制”实施的案例进行实证分析,可将乡土企业与农民的利益联结方式分为利益分配、利益保障及利益调节。从产销网络化、服务与资源供需适配、契约化治理等三个层面来看,M镇在“茶长制”实施中主要构建了三种利益联结机制,即以镇村融合来延伸区域产业链和生产网络、以“茶、旅、文”结合来引导服务和要素的供需适配以及以相机治