【摘 要】
:
在机器学习的许多实际应用中,存在着许多数据不平衡的问题。传统机器学习算法往往以总体的分类准确率为目标,在对不平衡数据分类时容易忽略少数类。虽然当前对分类任务的数据不平衡问题研究较多,但对于回归任务的数据不平衡问题的研究较少。而在热带果树寒冻害预警问题中,气象数据集通常是不平衡的,即对热带果树造成寒冻害的天数较少,果树正常生长的天数较多。故针对传统机器学习算法在分类不平衡数据时容易忽略少数类的问题,
论文部分内容阅读
在机器学习的许多实际应用中,存在着许多数据不平衡的问题。传统机器学习算法往往以总体的分类准确率为目标,在对不平衡数据分类时容易忽略少数类。虽然当前对分类任务的数据不平衡问题研究较多,但对于回归任务的数据不平衡问题的研究较少。而在热带果树寒冻害预警问题中,气象数据集通常是不平衡的,即对热带果树造成寒冻害的天数较少,果树正常生长的天数较多。故针对传统机器学习算法在分类不平衡数据时容易忽略少数类的问题,提出了一种多策略处理不平衡数据的Ms Boost算法(Multistrategy imbalanced data processing with Boosting)。针对传统热带果树寒冻害预警的不足和气象数据不平衡的问题,将不平衡数据处理策略和GRU相结合,构建了热带果树寒冻害预警模型——IBDP-GRU(GRU with imbalanced data processing)。该模型通过预测次日的日最低气温,并结合相关热带果树的寒冻害指标,从而判断果树在次日是否会受害。主要的研究工作如下:1.为提升传统机器学习算法对类不平衡数据的分类性能,提出了一种针对不平衡数据的多策略处理算法Ms Boost。该算法首先对数据进行聚类;其次对少数类样本进行过抽样,对多数类采用提出的“三合一”算法进行欠抽样;然后采用代价敏感的思想,为抽样后的训练样本按不同类赋予不同的权重作为Ada Boost算法中训练样本的初始权重;最终将少数类样本和多数类样本结合,输入到模型中训练。将Ms Boost算法与Ada Boost、Rus Boost、Smote Boost和Cus Boost算法进行了性能比较。结果表明,Ms Boost算法在比较的多数数据集上都优于其它算法,因此Ms Boost是一种处理类不平衡数据的有效算法。2.因气象数据多为不平衡的时间序列数据集,即果树受寒冻害影响的天数远低于不受害的天数,故将提出的面向不平衡数据分类任务一些策略加以修改,使其能处理回归任务涉及的数据不平衡问题。将修改后的不平衡数据处理策略和GRU相结合,建立了面向不平衡时间序列数据的热带果树寒冻害预测模型——IBDP-GRU模型。首先,按照设定的低温阈值,将数据样本按其日最低气温分为两类,高于阈值(称为多数类)和低于阈值(称为少数类);然后利用修改后的“三合一”欠抽样算法,对多数类样本进行欠抽样,降低训练数据集的不平衡率;接着通过为少数类训练样本赋予一个大于多数类训练样本的权重,使模型更加关注少数类样本;再将训练样本输入到搭建的GRU神经网络模型中进行训练;最后结合神经网络的日最低气温输出结果和果树的寒冻害指标,判断果树在次日是否会受害。在模型的有效性验证实验中,结果表明,IBDP-GRU模型在不显著影响多数类样本预测的情况下,能更好地预测少数类样本,验证了IBDP-GRU模型的有效性。在南宁热带果树寒冻害预警实验中,结果表明,IBDP-GRU模型对香蕉和莲雾在次日的寒冻害预警在误报率不显著增加的情况下,具有更高的正报率和更低的漏报率。其中,模型对香蕉寒冻害预警的正报率分别比GRU、LSTM、CNN-GRU和BP模型高16.4%、19.3%、20.3%、31.3%;模型对莲雾的寒冻害预警的正报率分别比上述模型的高18.7%、18.6%、20.5%、32.2%。实验结果验证了IBDP-GRU模型对热带果树寒冻害预警的有效性和可靠性。
其他文献
惯性测量单元(Inertial Measurement Unit,IMU)包含陀螺仪与加速度计,被广泛用于计算各类机器人的姿态信息。目前姿态算法多数基于角速度积分来计算姿态,并利用加速度信息融合修正由于陀螺仪漂移导致的积分积累误差。但加速度计易受外界因素的干扰,导致强干扰下难以利用不准确的加速度来修正姿态误差。加速度的准确性是相关算法精度得以提高的关键之一。针对强干扰的工业打磨场景中加速度无法修正
随着无线通信技术的迅速发展,人们越来越关注通信的质量以及数据的传输效率。现代信道编码技术在提升通信系统的可靠性方面发挥着重要的作用。低密度奇偶校验码(Low-density parity-check code,LDPC)是一种能够逼近香农限的编码方案,在学术界得到了广泛的认可和研究。LDPC码凭借其译码吞吐量大、性能好等优点,已被选定为第五代移动通信(5G)中数据信道的编码标准。毋庸置疑地,LDP
我国目前尚未将公共设施致害纳入国家赔偿范围,理论界对于公共设施的定义及公共设施的构成要见也存在争议。实践中,公民多通过民事途径寻求救济,但是用《民法典》调整明显存在不足。鉴于将公共设施致害纳入国家赔偿范围具有正当性,可以借鉴国外司法实践,确立我国公共设施致害的多元归责原则,探索将公共设施致害纳入我国国家赔偿法,并出台相关国家赔偿司法解释和指导案例,建立公共设施致害的国家追偿制度和保险制度。
优化问题的研究一直以来深受科研工作者的关注,频繁出现在机器学习、信号处理、生物信息学以及各类科学与工程领域中的非光滑非凸优化问题在近年来成为了学者们研究的重点。人工神经网络因其具有处理高维度问题的能力以及可以求解实时解的特性,成为了求解优化问题中炙手可热的研究方法。针对近年来提出的解决优化问题的神经网络模型存在的局限性,本文构建了不同的两种神经网络模型来解决非光滑非凸优化问题。首先,对于带有不等式
频控阵(Frequency Diverse Array,FDA)雷达作为一种拥有较高自由度的新型体制雷达,与传统相控阵雷达相比,具备更加灵活的波束扫描特性,因此需要配备更先进的阵列信号处理技术。由于频控阵雷达的不同天线间存在微小的频率偏移量(简称频偏),形成了与距离、角度、时间相关的波束方向图,使其在干扰抑制、射频隐身等领域拥有广阔的应用前景。线性频偏条件下的频控阵具有距离-角度耦合性,其产生的周
近年来,深度学习在植物病害识别方面取得了一定的成果,然而这些方法普遍存在模型体积大、计算开销复杂等问题,难以在识别中获得广泛的应用,尤其是利用无人机、Io T设备等计算资源稀缺设备进行植物疾病检测任务时,上述问题更加突出。因此,本文研究植物疾病识别和模型精简中的关键问题,提出了一种基于知识蒸馏的结构化模型压缩方法,旨在保证模型准确性的前提下进一步降低卷积神经网络的参数量和模型体积,使模型同时具备较
微波光子链路是微波光子学研究的主干,微波光子传输链路继承了微波光子技术的主要特点。其充分的利用了微波光子技术高频宽带、抗电磁干扰、低传输损耗等优点,有效的克服了传统微波通信中“电子瓶颈”的限制,给高频宽带通信领域提供了新的方向。本文从微波光子传输链路的结构展开研究,针对宽带信号在微波光子传输链路的线性化和稳定控制提出了解决方案,研究内容主要分为以下两部分。1、对于传输链路的宽带线性化,本文以典型的
根据达尔文的自然选择理论,理性个体总是倾向于选择背叛行为。然而,合作现象能够普遍存在于自然系统与人类社会中。如何理解和解释社会困境中自私个体之间合作行为的自发涌现和维持依旧是一个具有挑战性的科学问题,吸引了不同领域众多学者的持续关注。在演化博弈理论这一强有力的理论框架下,出现了大量的涉及不同结构群体(如方格子网络、随机网络、小世界网络和无标度网络等)和各种社会困境(如囚徒困境博弈、雪堆博弈和公共物