多标签分类的数据不平衡问题研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:abc124333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题一直是机器学习的研究热点之一,多标签分类由于更加符合人们的认知,因而在实际中得到广泛应用。分类时经常会面临数据不平衡问题,即不同类别的样本数量存在着较大的差异,在多标签分类中,标签集的特殊性使数据不平衡问题更加严重,导致在对不平衡多标签数据分类时无法有效的利用标签间的相关性,从而降低分类效果。本文尝试从不同角度出发解决多标签分类的数据不平衡问题,围绕在数据层面上改进过采样算法和在数据层面与算法层面相结合的基础上设计集成算法展开研究。
  首先,简要介绍了多标签分类数据不平衡问题的背景意义及研究现状,给出了多标签分类的定义和一些常用方法,总结了传统的解决多标签分类数据不平衡问题的方法。
  其次,针对多标签分类中数据不平衡问题,从数据层面出发,考虑到传统的多标签过采样算法ML-SMOTE可能存在的不足,对其进行改进,提出了一种多标签幂集小类样本合成算法MLP-SMOTE(Multi Label Powerset Synthetic Minority Over-sampling TEchnique),该算法可以在过采样时充分考虑标签间的相关性。
  再次,为了改善对多标签不平衡数据分类时使用单一分类器可能存在的不足,从数据层面和算法层面共同出发,将过采样算法和集成思想相结合提出了一种基于样本贡献度的多标签不平衡数据集成算法MLSCE(Multi-Label based on Sample-Contribution Ensemble)。
  最后,在5个公开的用于不同领域的多标签数据集上,通过一系列实验将MLP-SMOTE算法与其他过采样算法进行对比,实验结果表明,MLP-SMOTE算法具有有效性与普适性;将MLSCE集成算法与单一分类器、Bagging算法在多个评价指标上进行对比,证明了MLSCE集成算法具有较高的分类性能。
其他文献
生态移民是西部地区改善当地居民在恶劣的生存状态及减少自然保护区人口数量压力的一项重要举措。随着保护自然生态坏境的工作推展,生态移民人数增多,作为经济建设和社会和谐重要影响因素的养老保障问题也引起了学术界的关注。  本文以宁夏永宁县闽宁镇生态移民的养老保障现状为研究对象,运用调查研究法、文献研究法和个案研究法进行调查和分析,调查内容包括生态移民的基本情况、养老模式、养老生活水平、保险保障以及养老的精
学位
目的:以黄酮类、生物碱类、激素类、皂苷类四个类型的药物为模型药,从离体方面探讨付罐物理促渗技术(FCT)对不同油水分配系数(logP)药物的促渗效果,再结合微透析技术评价付罐物理促渗技术(FCT)对所选择模型药芍药苷的在体促渗效果研究。  方法:1.利用HPLC建立芍药苷、黄芩苷、辣椒碱、黄连素、地塞米松磷酸钠、醋酸氟轻松、人参皂苷Rg1、三七皂苷R1模型药的体外透皮含量测定方法学;2.利用HPL
目的:  从戊己丸抗胃溃疡药效物质基础研究出发,对其抗胃溃疡作用机制进行研究,建立戊己丸指纹图谱信息与抗胃溃疡药效指标之间的谱效关系,指导戊己胃漂浮缓释片的制备工艺环节评价,对戊己胃漂浮缓释片新制剂进行药效评价,通过戊己丸与新制剂戊己胃漂浮缓释片指纹特征图谱及谱效关系对比分析,验证制备工艺环节评价模式的稳定性及可行性。  方法:  1.建立11批戊己丸超高液相色谱-质谱指纹图谱,采用经典幽门结扎法
石墨相氮化碳(g-C3N4)是氮化碳最稳定的同素异形体,作为一种备受关注的共轭聚合物,已经成为近年来的研究热点。由于其极具吸引力的电子能带结构,良好的物理、化学稳定性和原料来源广泛,在太阳能转换和环境修复领域作为可见光响应光催化剂引起了学术界广泛的关注。与此同时,g-C3N4具有的强荧光性,优异的生物相容性和无毒性,以及良好的分散性,大的比表面积,丰富的结合位点等诸多优良特性,使其在金属离子、有机
学位
河流作为城市发展以及人类生存不可或缺的资源和环境载体,近年来,随着城市化与工业化的快速形成,水生态环境也随之急剧恶化。河流底泥是水生环境的重要组成部分,可以有效控制水相中的重金属浓度,并调节底栖生物的金属生物利用度。但是由于底泥重金属污染难以通过生物降解,尤其是在一定的水环境理化条件变化、生物和水动力变化的干扰下,底泥中的重金属会重新释放到水相中,对水环境造成二次污染。因此,对底泥中重金属污染的研
学位
需求侧的能源管理技术是智能电网的关键技术,它通过减少高峰负荷期问用户的能源需求,帮助实现电力能源的更有效利用。在智能电网和智能电表的背景下,针对传统传感器侵入式电力监测手段投资成本高,难以推广应用等问题,非侵入式的电力监测手段成为众多学者研究的热点。本文对非侵入式居民电力负荷监测课题展开研究,选取了简单高效的有功功率作为非侵入式电力负荷分解特征,其通用性更强,适用范围更广,成本更低,  本文研究了
学位
集成式多端口变换器因其控制简单、功率密度高、体积小等独特优势,被广泛应用在可再生能源分布式发电领域,是国内外学者关注的研究热点。因此,本文将交错Buck/Boost电路与双有源全桥相结合,研究一种用于光-储联合供电的直流三端口变换器。  该变换器通过复用交错Buck/Boost和DAB电路的原边全桥而得到,其各端口均为单级变换,效率高、控制简单且软开关工作范围宽。首先,制定了适用于该拓扑的PWM+
随着西成高铁的开通运营,西成高铁部分区段处于大坡道、长隧道,动车组列车再生制动功率和谐波传递对电质量的影响日益突出,因此很有必要根据本线特点,结合本线工程实际,综合选用理论建模、仿真计算和实测验证等手段全面评估电质量并提出改进措施。对高坡高铁运营以及建设此类大坡道高铁的标准等具有重大意义。  首先,以西成高铁长大坡道区段牵引供电系统进行现场实测数据做为本文研究的基础数掂,同吋对测试方案和测试设备作
学位
随着网上购物、售后客服、教育咨询等领域的不断发展,传统的基于人工客服的服务方式显示出人工成本高、客服素质参差不齐等弊端。与此同时,伴随着数据积累和计算能力的大幅提升,基于深度学习的聊天机器人呈现爆发式增长态势,相对人工客服展现出巨大的经济优势。当前,聊天机器人的研究受到广泛关注并成为研究热点。  多轮回复选择作为实现检索式聊天机器人的关键任务,现有研究存在对话上下文和候选回复的词序列信息挖掘不足、
随着现代数字通信和电子数据交换的快速增长,已经进入“互联网+”与大数据结合的信息化时代。数字图像以其生动、直观的特点,已经在医学、商业、军事等不同领域中得到了广泛的应用。当数字图像在不安全的传输信道中传输时,会有隐私侵犯、恶意篡改、非法拷贝等安全问题。因此,需要为图像提供适当的保护以避免未授权用户的非法访问。压缩感知是一种新型的信号采样理论,打破了奈奎斯特采样定理的束缚,通过少部分线性、非自适应的
学位