论文部分内容阅读
马尾松毛虫虫害是我国重要的森林病虫害之一,准确的预测预报能有效降低病虫害防治工作成本,提高防治效果。基于经典机器学习算法的林业病虫害预测预报方法无法有效处理样本数量少、分布不均衡、特征维度高的虫害数据,因而在预测样本数量较少的严重级别虫害时准确性有限。少数类过采样能够有效增加模型训练中可用样本的数量、平衡样本空间数据分布,可为林业病虫害准确稳定预测提供思路。因而,本文面向实际林业病虫害防治预警任务需求,针对虫害数据的不平衡性展开研究,重点解决了运用传统机器学习方法建立虫害发生面积等级预测模型时因数据不平衡所导致少数类样本的预测精度有限、泛化能力弱的问题,本文的主要研究工作如下:1.设计了一种马尾松毛虫虫害样本数据库。本文通过国家林业病虫害防治总站和国家气象数据共享中心搜集了广东省4个地区的马尾松毛虫历年发生面积、气象因子等数据,采用组合特征工程对特征数据进行筛选,明确了不同地区影响马尾松毛虫虫害发生的气象因素,为马尾松毛虫虫害发生面积等级预测算法研究的开展提供了素材。2提出了一种基于少数类过采样的马尾松毛虫发生等级预测算法。本文基于合成少数类过采样算法,结合样本排序、自调参k-近邻搜索和集成学习提出了一种改进的虫害发生面积等级分类方法——基于自调参的少数类过采样预测分类算法,本文将该方法应用到马尾松毛虫发生面积等级预测,提升了预测模型的准确性和泛化能力。3.设计了一款马尾松毛虫虫害测报软件。本文基于Python Tkinter模块设计一款面向马尾松毛虫发生面积等级的预测软件。该软件综合了多种机器学习算法,集成了虫害发生面积等级预测、影响因子特征筛选以及预测模型选择等功能,实现了对用户不同应用场景和需求的综合。本文利用UCI公共数据库和实际马尾松毛虫虫害数据对基于自调参的合成少数类过采样分类算法进行实验验证,结果表明,本文所提算法可以提高不平衡数据的分类性能,F-measure、G-mean以及&OC曲线等不平衡数据分类评价指标均优于SMOTE及其部分改进算法,此部分工作可以为虫害预测预报提供参考。马尾松毛虫虫害测报软件可以实现虫害的预测预报,简化了操作流程,为相关的研究工作提供便利。