【摘 要】
:
不平衡数据在日常生活中普遍存在,不平衡数据是指构成数据的各类样本数量之间具有差异的数据。不平衡数据中少数类样本往往含有更重要的信息,对少数类样本错误分类的代价往往较高。但是,传统机器学习分类方法趋向于在少数类样本上产生较低的准确度,不适用于不平衡数据。因此,有效解决不平衡数据分类问题具有重要意义。本文分别从算法层面和数据层面分别提出不平衡数据分类的解决方法,并应用到光伏阵列故障诊断领域。本文主要内
论文部分内容阅读
不平衡数据在日常生活中普遍存在,不平衡数据是指构成数据的各类样本数量之间具有差异的数据。不平衡数据中少数类样本往往含有更重要的信息,对少数类样本错误分类的代价往往较高。但是,传统机器学习分类方法趋向于在少数类样本上产生较低的准确度,不适用于不平衡数据。因此,有效解决不平衡数据分类问题具有重要意义。本文分别从算法层面和数据层面分别提出不平衡数据分类的解决方法,并应用到光伏阵列故障诊断领域。本文主要内容和创新点如下:第一、针对现有的过采样方法生成样本质量不高的问题,提出一种基于边界样本的概率密度估计过采样方法(SFGMM)。首先,根据位于类边界的样本含有更多有效信息的性质,建立一种基于近邻规则的样本种子筛选策略,将位于边界的样本作为合成样本的种子,同时删除噪音样本来减少噪音对分类结果的影响。其次,为充分利用样本种子的统计信息,实现样本种子在平衡前后的一致性,采用高斯混合模型对样本种子的概率密度进行估计,并利用该估计合成相同分布的样本,从而合成高质量的均衡化样本。采用Keel数据库的多组不平衡数据集进行实验并和其他采样方法进行比较,结果证明SFGMM优于对比方法。第二、针对代价敏感支持向量机存在参数选择困难的问题,提出一种改进灰狼算法优化代价敏感支持向量机的方法(IGCSSVM)。改进灰狼算法在灰狼算法的基础上引入非线性控制因子和新的灰狼种群位置更新策略,提升了灰狼算法的参数寻优能力。针对不平衡数据的分类特点提出一种新的不平衡数据分类的评价指标,并以该评价指标为参数优化目标函数,利用改进灰狼算法优化代价敏感支持向量机的参数,从而提升代价敏感支持向量机在不平衡数据上的分类性能。为验证IGCSSVM方法的有效性,在Keel库中18个不平衡数据集上进行实验,结果表明IGCSSVM有较好的分类效果。第三、针对光伏阵列故障诊断中不平衡数据的多分类问题,提出一种基于SFGMM和IGCSSVM的多分类故障诊断方法(SFGMM-IGCSSVM)。首先,利用团队研发的光伏微网系统进行实验并采集系统在不同工况下数据,采用SFGMM对光伏阵列不平衡数据进行过采样。随后,采用多分类的分解策略并结合IGCSSVM方法对均衡后的数据进行分类实验。同时设置两组对比实验,第一组用来比较过采样和参数优化前后的性能,第二组用来与其他不平衡数据分类算法的分类性能进行比较。两组实验的结果都表明,提出的SFGMM-IGCSSVM在多个评价指标上取得最大值,能够更准确的判别不同运行工况,有较好的故障诊断效果。
其他文献
近年来,政府在数字化政府建设的进程中,积累了大量的与人民群众息息相关的民生数据,若深入挖掘分析以群众留言为代表的社情民意数据,就能够找出民众关切的核心热点问题,因此政府部门对这些留言数据应该给予重视和加以利用,以达到应用数据进行精准治理和科学决策的目的,从而进一步推动政府数据治理能力的提升。运用文本挖掘技术对政府留言文本进行深度挖掘和分析具有十分重要的现实意义。由于留言类数据数量巨大且全部为非结构
为了实现我国“碳达峰、碳中和”的“3060”目标,预计需要超100万亿元的投资规模,政府主导投资只占10%左右,更多需要通过绿色信贷、绿色债权等融资方式来实现,这就离不开包括中小银行在内的广大银行业金融机构的努力。但对中小银行而言,绿色信贷业务处于起步阶段,发展绿色信贷业务,首要条件是建立一套科学的绿色信贷客户信用评价体系。首先,回顾了国内外学者关于绿色信贷、信用评价方面的研究成果。然后,对绿色信
随着互联网和信息通信技术的普及和发展,电子商务在现代贸易中扮演着至关重要的角色。而快速消费品作为日常生活中的必需品,与电子商务相结合,不仅提升了广大消费者对有效需求的便捷程度,更扩宽了公司的经营渠道,创造了空间优越性。目前,快速消费品市场占有率很高,快速消费品电商行业已进入理性发展的平稳阶段。在给企业带来机遇的同时,也存在着一定的挑战。多元化的消费者喜好与多样化的购物选择,导致电商企业的商业运营状
行人重识别(Re ID)因其广泛的应用前景而逐渐受到关注,近年来由于计算机视觉的发展,特别是深度学习在安防和监控领域的应用程序取得了广泛的普及,基于深度学习行人重识别的方法取得了长足的发展。尽管如此,Re ID仍然存在光照变化、人体姿态变化、遮挡、背景杂乱、标签标注有限等诸多具有挑战性的问题。为此许多工作被提出以试图解决这些挑战,其中度量学习为非常重要的一环。Re ID中提出的大多数度量学习损失函
随着移动互联网技术的进步和飞速发展以及电子商务的广泛应用,电子商务平台零售店铺的交易量和规模,电商公司数量、用户群体的数量这几年均已经获得了快速扩张。但是,实体经营者企业和其他电商经营者所需要承担的费用和税负不同,很大程度上影响了其他实体经营者企业的生存和发展,这就不利于经济的平衡和发展。因此,税务部门如何对电子商务贸易进行有效的税收监管就变成了一个亟待解决和探索的课题。本文基于对强化电子商务增值
随着公众对税收的关注度越来越高,互联网上报道的税收事件越来越多,这些事件往往对个人所得税、减税降费、税收征管等与人们生活息息相关的问题给予高度关注,而报道的方式也发生了较大变化,从传统媒体的报道转为自媒体报道,自媒体报道往往不会采用以往传统媒体平铺直叙的报道方式,他们常常推波助澜的报道一些涉税焦点问题,这些涉税问题在抖音、微博、知乎等平台上引发激烈的社会讨论,使税收领域成为一个对社会舆情极为敏感的
近几年,随着全球经济的持续动荡,船舶制造行业也一直处在低位徘徊。继2020年初,出现新型冠状病毒肺炎疫情,这一态势越来越严峻,经济贸易水平每况愈下,航运需求大幅下跌,导致多家老牌大型船企倒闭。所剩不多的船舶订单也使得造船市场竞争尤为激烈。我国虽然在船舶制造领域较西方国家稚嫩,但在这种情况下,在对船舶制造行业带来新挑战的同时,也为我国船舶制造的弯道超车提供新的机遇。此时,在改善船舶质量的基础上,尽可
近几年,新冠疫情对石化行业造成较大影响,导致成品油供应过剩。消费者对高价油偏好降低、产品定价与市场格局改变等问题,加剧了我国石化行业的财务风险。基于此,有必要对M石化公司的财务绩效进行研究,以提高财务管理应对风险的能力。本文以M石化公司为例,运用因子分析法对石化公司财务绩效进行评价研究。论文首先介绍了研究背景和研究意义,并阐明了财务绩效评价的相关概念,列举了支持财务绩效评价的相关理论。其次,简单介
伴随我国社会经济高速发展,国家对矿产资源的需求持续增长,做好矿产、能源等资源保障工作至关重要。地质勘查工作是矿产资源开发最重要的一步,贯穿于矿产资源从发现到闭坑整个过程。地质勘查项目面临投入高、风险高、周期长、不确定因素多等诸多挑战,因此制定有效的进度计划能够保证工程项目施工质量和过程管理,从而保证项目保质保量按时完工。本文以辽宁省瓦房店地区X矿产地质普查项目为案例进行进度计划和控制的研究,为项目
机械振动是机械设备运行过程中的一种现象,能够反应出设备的运行状态。旋转机械作为现代机械设备的核心部件,广泛应用于各个领域。其核心零部件如齿轮、轴承等因为持续工作在恶劣环境下,必定会出现不同程度的结构损伤,进而导致整个机械系统发生状态退化。基于振动信号的机械设备故障诊断成为监测设备状态的一种主要形式,能够有效的提高系统可靠性。神经网络因其强大的海量数据处理能力而广泛流行于各个领域,其通过模拟人脑,构