论文部分内容阅读
进入21世纪后,随着信息技术的高速发展,数据大量堆积,知识却十分贫乏,因此人们将越来越多的目光投向数据挖掘技术。经过二十多年的迅速发展,数据挖掘技术在包括水文研究在内的众多领域获得了广泛应用。林冠截留量模型一直都是水文领域的研究的热点,国内外学者在这个问题的研究上也取得了不少成绩。但是,现有的截留量模型或者是只考虑少量因子影响,没有物理意义且适用范围较小的经验模型;或者是变量测量(或是计算)困难,假设颇多的理论模型;又或者介于前两者之间,但依然是建立在假设基础之上的半经验半理论模型。目前,建立一个具有明确物理意义,不依赖于大量假设,计算简便且精度较高的截留量模型已成为众多研究者的奋斗目标。本文采用数据挖掘技术中的多元回归分析方法进行林冠截留量模型的研究。首先,对林冠截留量的影响因素进行了较为系统的整理。本文将这些因素归纳为四类,并由其组成了一个自变量备选集合X。然后,以集合X为基础,分别采用多元线性回归分析和多元非线性回归分析方法建立了3个林冠截留量模型。1)对X中的17个自变量物理意义的分析后,精简掉冗余的自变量,得到只有8个自变量的新的集合X。然后在此基础上,根据多元线性回归分析方法建立了第一个林冠截留量模型M1。经过显著性检验发现模型M1的线性性并不显著,显著性因子Sig为0.32,大于给定的显著性水平0.05。2)在分析出M1线性性不显著的原因可能是M1的自变量存在共线性后,使用逐步回归法和轮消法对M1进行了改进。改进后得到第二个林冠截留量模型M2。M2的显著性因子Sig为0.001,M2具有显著的线性性,同时M2在与张淑琢模型的应用比较中显现出了较好的预测效果,但M2物理意义上却存在问题。3)重新将所有17个影响因素组成自变量备选集合X,并根据自变量间关系进行了自变量的精简。精简后的X集合中只剩6个自变量,依次分析它们和因变量的关系后建立了林冠截留量的多元非线性回归模型M3。通过使用实测数据进行比较发现,M3在短期预测中效果较好,长期预测效果不如短期预测,但其实验的预测误差也在有效范围内,可以使用。