基于一对一分解的多标签分类算法研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:happy1072298534go
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是指通过对已知类别的样本集进行学习,来预测未知类别样本的过程。多标签分类允许一个样本同时拥有多个标签,并且标签之间可能存在一定的关联性。由于在现实中的应用广泛,该问题得到了越来越多的关注,现有的处理多标签问题的方法主要有基于问题转换的方法及基于算法扩展的方法。目前,将分解策略与支持向量机相结合的算法已经成为了处理多标签问题的有效方法之一。基于“一对一”分解策略的多标签分类算法能够将q类原问题分解成q(q-1)/2的子问题,通过集成所有子问题的解来得到原问题的解,优点在于能够简化问题的求解过程,并且弱化样本的不平衡性问题,但也伴随着新的问题,包括三类问题及阈值问题等。对于分解后可能出现的三类问题,本文采用了顺序回归的方法,将混合类看作新的类别,寻找两个平行的分类超平面将三种类别的样本划分开来,实现了三类支持向量机的多标签分类算法(OR-SVM)。而关于相关标签的选取问题,在本文提出的算法中,采用了离散贝叶斯方法来判别相关标签。在实验部分,本文选取Yeast等10个基准数据集用于算法性能的比较,并选取了汉明损失、准确率、精度、召回率、F1值、排序损失、1错误率、覆盖率、平均精度共9个准则用于对算法性能的评估。在算法的参数调谐过程中,本文采用了三折叠的交叉验证方法,并根据训练集上排序损失及汉明损失的平均值进行最优参数的选取,然后在测试集上计算算法的9个性能指标值。通过与现有的多标签分类算法OVR-SVM等进行比较,使用排序的方法统计结果,并通过Friedman检验深入分析排序结果,结果显示,本文提出的算法具有较好的分类性能,在排序损失,1错误率等多个评价准则上都优于OVR-SVM等现有的多标签分类算法。
其他文献
近年来移动互联网技术以及移动通信技术的飞跃发展,教育方式从传统的课堂教学,到数字化多媒体教学,进而发展到现今的移动教学。但是在移动教育教学实施过程中,无线网络的复杂
在信息技术快速发展的今天,电力企业已不满足于只对电能质量的历史数据进行查看,它们将更关心未来一段时间内的电能质量状况。针对这一需求,本文提出了一种使用数据挖掘技术对电
近年来,人工免疫系统、分布估计算法、密母算法等一些新的方法陆续被用于求解多目标优化问题,本文着重对以上几种经典算法进行了研究分析,提出了两种基于分布式估计和自适应进化
入侵检测是一种用于发现计算机网络或系统中违反安全策略的行为并对其做出反应的过程。通过对网络攻击类型和入侵检测方法的研究,发现常用的入侵检测方法不能很好的检测基于数
随着电能质量监测数据量的不断增长,系统复杂程度的不断增加,给电能质量智能信息系统的性能带来了很大的压力。主要表现在长时间的数据计算导致系统反应迟缓;大数据量的查询操作致使用户需要较长时间等待页面响应。这些性能问题将不利于电能质量研究的大范围开展和电能质量智能信息系统的推广使用。因此,有必要对电能质量智能信息系统的性能进行优化,提高系统运行效率、增强用户体验。本文重点研究了电能质量智能信息系统中的比
随着互联网技术的高速发展,P2P流媒体网络技术应用越来越广泛。由于传统的流媒体主要采用C/S模式,即客户端和服务器端的模式,客户端以单播方式和服务器端建立连接,服务器主要
图像分割是图像处理和机器视觉的基本主题,更是图像理解和分析的关键基础。随着机器视觉和图像识别技术的快速发展,图像处理的应用也越来越广泛,而图像分割的应用,也几乎渗透了有
随着计算机技术的高速发展和网络技术的迅速普及,信息的存储、处理和传输方式发生了根本变化,信息化、数字化、网络化已经成为信息系统的发展趋势。作为信息传输和数据交换的
学位
随着移动互联网技术的积累和发展,各种智能移动设备不断出现,传统行业与移动互联网的联系越来越密切。利用各种移动软件和智能网络我们可以轻松的处理我们的生活和工作,给我