非平衡数据训练方法概述

来源 :计算机科学 | 被引量 : 0次 | 上传用户:YT479102771
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实世界中数据分类的应用通常会遇到数据非平衡的问题,即数据中的一类样本在数量上远多于另一类,例如欺诈检测和文本分类问题等。其中少数类的样本通常具有巨大的影响力和价值,是我们主要关心的对象,称为正类,另一类则称为负类。正类样本与负类样本可能数量上相差极大,这给训练非平衡数据提出了挑战。传统机器训练算法可能会产生偏向多数类的结果,因而对于正类来说,预测的性能可能会很差。本文分析了导致非平衡数据分类性能差的多方面原因,并针对这些原因列出了多种解决方法。
其他文献
在简要回顾台湾产业转型升级发展历程的基础上,从产业布局、规划理念、内部结构、调控手段、土地政策等方面总结了台湾地区推动当地产业转型升级的主要经验。最后进行思考,提
本文在厘清融资租赁本质涵义和融资租赁合同范畴的基础上,重新界定了融资租赁合同的概念。认为融资租赁合同概念应反映融资租赁的本质特征,把三方当事人相互交错的权利义务明
以蒸馏水和丙酮为工质,对多种工况下脉动热管的传热极限进行了实验研究.在分析脉动热管加热段和冷却段温度变化的基础上,归纳出了整体干涸型和局部干涠型2种传热极限的表现形式;
明清时期江南的商品流通与水运业的发展──从日用类书中商业书有关记载来研究明清江南的商品经济陈学文明清时期日用类书的编纂、翻刻很普遍,其中介绍水陆行程和经商知识的商
本文从我国检察机关介入公益诉讼的现状入手,指出存在问题并进行分析,并提出相关完善的设想。全文共分四个章节。第一章对公益诉讼的概念进行了概述,界定公益诉讼的概念。第
随着世界经济全球化、一体化的快速发展,中国企业面临着日趋复杂的经济环境,企业内部的管理层次逐渐增多,组织机构设置也越来越复杂,内部控制在现代企业管理中就显得尤为重要
简·奥斯汀是维多利亚时代英国著名女作家。她短暂的一生为后人留下了六部完整的小说,她的创作光环时至200多年后的今日在文学界仍旧闪烁光芒。2000年,BBC的“千年作家评选”
在师生交往中,师生信任是师生关系的核心,良好的师生信任是建立和谐师生关系的基础,不仅能激发师生的内部潜力,同时也是学校组织信任中最核心最重要的一环,是学校发展的基础
《边城》可谓是沈从文“湘西世界”的典范之作,自问世以来,就获得极大的赞誉。特别是近几十年来,关于《边城》的研究日益深入,成果颇丰。依照接受美学的理念,文学史是作家、
在当今信息社会,个人信息无疑是一种重要的社会资源。建立个人信息保护制度,既是维护个人权利的要求,也是促进个人信息有序流动的有效保障。近年来,随着网络和各种通讯技术的