基于粒计算的邻域决策系统多标记分类

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:JINGRUOFEIYUN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,大数据呈现出数量爆发式增长、形式复杂多样以及语义日益丰富的特点,传统的单标记数据无法应对一个对象同时属于多个类别的问题,因此需要利用多标记学习来处理和分析这类数据。此外,由于现实世界的复杂性,真实的多标记数据通常伴随着各种类型的噪声,直接对这些数据进行预测,可能导致分类性能的下降。为此,本文从多标记数据分析、分类预测等实际需求出发,运用机器学习模型及算法对多标记数据进行预处理,在邻域决策系统中,拓展基于粒计算的邻域粗糙集、模糊集等理论模型研究,针对完备的、不完备的和带有缺失标记的多标记数据以及偏多标记数据开展多标记分类的理论、算法及其应用研究。本文主要研究内容包括:(1)现有的一些多标记特征选择算法忽略了标记之间的相关性,导致预测分类性能下降;同时一些基于邻域粗糙集的特征选择算法在确定合适的邻域半径时仍然面临困难,导致计算复杂度和时间成本高。为了克服这些问题,在多标记邻域决策系统中提出了一种基于Fisher Score和多标记邻域粗糙集的多标记特征选择方法。首先,分别构建了正、负标记之间的两种互信息以考虑标记之间的相关性,通过增强标记之间的强相关性并弱化标记之间的弱相关性,设计了一种新的基于互信息的Fisher Score算法,对多标记数据进行预处理,以减少后续算法的时空复杂度。其次,为了解决传统的多标记邻域粗糙集模型中邻域半径通常由手动设置的问题,采用目标样本在不同标记上对应的异类和同类样本的子集,基于邻域间隔设计了新的分类边界作为邻域半径,进而提出了邻域类和上、下近似集等概念。然后,设计了新的权重并改进依赖度的计算方式,以有效衡量多标记邻域决策系统中样本的不确定性。由此,基于Fisher Score和多标记邻域粗糙集设计了一种启发式前向搜索的多标记特征选择算法,以提高多标记数据集的分类性能。最后,将该算法应用于13个多标记数据集的特征选择研究,实验结果与分析验证了该算法的有效性。(2)现有的大多数多标记数据通常存在许多缺失属性以及标记,因而带有缺失标记的不完备多标记数据的分类任务仍旧面临诸多挑战。为了解决这一问题,基于邻域模型提出了一种两阶段多标记分类方法,用于处理带有缺失标记的不完备多标记数据。首先,为了解决邻域半径需要手动选择以及邻域内样本不平衡的问题,在不完备多标记邻域系统中,基于特征分布函数设计了新的邻域半径计算公式,并构建了一种基于邻域粗糙集的不完备特征补全算法,同时获取对应的特征权重矩阵。其次,为了进一步考虑特征之间的非线性关系,在带有缺失标记的多标记邻域决策系统中,基于高斯核函数研究了邻域内样本之间的模糊相似关系,并与回归模型相结合,设计了新的目标函数。然后,采用交替梯度下降策略,获取目标函数的最优解,设计了一种针对带有缺失标记的多标记分类算法。最后,将该算法应用于18个多标记数据集的多标记分类研究,实验结果与分析验证了该算法能够有效提升缺失标记数据的分类效果。(3)现有的大多数偏多标记学习模型是通过构建目标函数,并优化目标参数来求解,这可能会在训练过程中出现大量噪声数据,将会导致分类性能下降。同时,容易忽略特征之间复杂的非线性关系。为了弥补这些缺陷,设计了一种基于模糊邻域的粒球聚类和核极限学习机的偏多标记学习方法。首先,为了减少噪声的干扰,改进了粒球聚类模型并对偏多标记数据进行预处理。其次,在偏多标记邻域决策系统中,设计了样本之间的模糊相似度、模糊邻域粒度,并提出了一种粒球融合的概念,在此基础上定义了模糊隶属度函数、标记增强公式和样本间的相似度矩阵。然后,为了考虑特征之间的非线性关系,基于核极限学习机模型以及原始特征序列输出了新的训练数据的特征变换矩阵;将模糊隶属度函数、标记增强矩阵、样本间相似度矩阵与训练数据的特征变换矩阵相结合,基于回归模型设计了新的目标函数充分考虑特征之间复杂的非线性关系;采用加速近端梯度优化方法求解目标函数的最优解,并设计了一种新的偏多标记分类算法。最后,将该算法应用于14个偏多标记数据集的多标记分类研究,实验结果与分析表明了所设计算法能够提高偏多标记数据的分类性能。
其他文献
卷烟的质量与烟丝的理化性质和机械特性密不可分,在烟丝加工工艺中,不同的干燥工艺参数如筒壁温度、热风温度等对其含水率、整丝率、填充值等理化性质影响不同,因此干燥过程的调控与优化对于成品烟草质量把控至关重要。研究干燥过程中烟丝的干燥特性,对深入分析烟丝状态变化以及烟丝加工过程中的传热现象、优化卷烟加工工艺参数等具有重要意义。然而目前行业中使用的滚筒干燥机由于内筒高温旋转,干燥过程中筒内环境及烟丝的状态
学位
油菜是世界上重要的油料作物,油菜籽粒颜色和萌发活力是反映油菜籽品质和油菜产量的重要指标。地域气候条件和品种是限制油菜籽粒颜色和萌发活力的主要因素,探究地域气候条件和品种对油菜籽粒颜色和萌发活力的影响,可为实现油菜的优质高产提供理论依据。本研究选用24个甘蓝型油菜品种,在长江流域8个试验点种植,通过图像采集装置和人工气候箱,测定了不同品种不同地域的油菜籽粒各颜色参数和萌发指标,确定了籽粒颜色和萌发活
学位
我国农业在现代化转型过程中存在着农机服务组织与农户沟通效率低、农机利用率低和农机供需信息滞后等问题。为了实现多农机合作社联合调配农机完成农田订单作业,减少传统农机作业的调度成本,提高农机资源的利用效率,本文结合当前农机调度模型、调度算法和调度系统的国内外研究情况,根据实际农机作业现状,建立了带模糊时间窗、多农机合作社、多农机的即时响应调度模型,设计了将聚类算法和改进遗传算法相结合的两阶段智能优化算
学位
荸荠是我国特色水生蔬菜之一,其形状特殊、个体差别大、易损伤,收获后经分级处理,可用于销售、加工等,显著提高其经济价值。目前国内缺乏针对荸荠专用的分级、装箱机器,为此,本文设计了一种基于振动式分级结合定量装箱的新型荸荠自动分级机。全文主要研究内容与成果如下:(1)荸荠分级标准及生物力学特性研究。以湖北团风产荸荠为对象,测量了其外形尺寸,采用统计分析的方法,分析各尺寸分布范围区间,结合市场调查结果,提
学位
信息隐藏不同于密码学,其优势在于传递秘密信息的同时还可以掩盖通信秘密过程。大容量图像隐写术作为信息隐藏领域的重要分支,也随着计算机技术的进步成为了研究热点。现有的大容量图像隐写术大多是通过改进网络结构或引入新的模块来改进隐藏和提取效果,但基于现有隐写框架训练得到的模型生成的图像质量仍然有待提升,而且接收方很难判断载密图像是否来自于真正的发送方。针对这些问题,本文通过引入秘钥图像,利用神经网络“过拟
学位
(t,n)门限隐私集合交集协议,指参与各方拥有大小为n的隐私集合,在不泄露各自隐私信息的前提下,如果参与各方集合的交集数量大于门限值t,则参与各方能够获得交集信息。然而现有多方门限隐私集合交集协议使用全同态加密等开销较大的公钥算法,尚没有有效实现。针对上述问题,本文提出一种基于智能合约的弹性秘密共享方案,并在该方案的基础上提出一种安全高效的多方门限隐私集合交集协议。(1)在一个(t,n)弹性秘密共
学位
蔬菜嫁接可以有效克服连作障碍,提高嫁接幼苗对环境的适应能力,起到促进生长提高产量的作用,随着设施蔬菜种植面积不断扩大,嫁接育苗成为蔬菜设施生产中广泛使用的技术。目前我国大多育苗工厂都是人工嫁接,由于蔬菜嫁接具有时令性,造成嫁接人员劳动强度高且生产效率低下,利用机械嫁接可大幅度提高嫁接速度,提高嫁接苗的成活率,有利于嫁接苗的集约化、标准化管理。目前国内外的蔬菜嫁接机都是单株或单排进行嫁接作业,需要人
学位
图像隐写检测是一种在图像中发现秘密信息的技术。随着信息技术的发展,图像隐写检测方法提取的特征维数愈来愈高。高维的图像隐写检测特征虽然在一定程度上提高了检测精度,但其中包含一些不相关或冗余信息,这不仅会带来庞大的计算和存储开销,还会给分类器的训练带来困难。图像隐写检测特征选择则是针对该问题从高维特征中剔除不相关和冗余特征,在不影响检测精度的同时减少时间复杂度。然而,目前图像隐写检测特征选择方法大多是
学位
湿式厌氧发酵沼气工程作为有效处理废弃物的技术手段,在国内外已有成熟应用,但该过程会产生大量富含氨氮的沼液,若得不到妥善处理,将对环境产生严重的二次污染。从沼液中回收氨氮等营养物质属于妥善处理的方法之一,可实现沼液的资源化利用。膜蒸馏技术回收沼液氨氮过程中仅允许可挥发的蒸气透过膜,可有效去除沼液中的氨氮和挥发性有机物等。而作为膜蒸馏技术的一种,真空膜蒸馏具有处理效果稳定、运用方式灵活、能耗低等优势,
学位
随着全球气候变暖以及农用耕地的减少,使得农业生产面临着严峻的挑战。粮食产量增速明显放缓,粮食安全问题变得日益严重。我国作为农业大国,保障作物产量以及品质尤为重要。水稻作为我国三大主要粮食作物之一,其重要性不言而喻。为了提高水稻产量与质量,对水稻籽粒的研究变得必不可少。水稻的产量跟水稻籽粒的粒型以及粒重紧密相关,因此本文主要研究水稻籽粒的饱瘪粒情况以及水稻籽粒的粒型,如粒长、粒宽、粒面积以及粒周长。
学位