论文部分内容阅读
中西太平洋海域(WCPO,WesternandCentralPacificOcean)是金枪鱼围网渔业最主要的渔区。在围网作业中,寻鱼是最重要的步骤。目前,围网生产渔船搜索鱼群除了靠目视侦察、以直升机或飞机在空中寻鱼等传统寻鱼方式之外,还参考国外运营商提供的关于渔场温度、盐度和叶绿素浓度分布变化情况的渔情预报,但要利用该渔情报告耗资较大,一艘围网船只每年需支付4万美元左右给运营商,这笔费用以及运用卫星通讯的费用增加了生产成本,因此,尽早研制出能够向渔民提供该方面信息的渔情预报软件是一项迫在眉睫的任务。同时,根据FAO(联合国粮食农业组织)最近完成的报告,在210多种传统渔业资源中,已有35%处于过度开发状态,25%处于充分开发状态,40%处于轻度或中度开发状态。处于轻度或中度开发状态的鱼种还需进一步开发,其中包括中西太平洋的黄鳍金枪鱼和鲣鱼。因此进行中西太平洋海域金枪鱼围网渔业渔情预报对我国远洋渔业的发展有着极为重要的意义,是非常有必要的。
我国大陆自2002年发展金枪鱼围网渔业[1]至今已有三年有余,国内许多水产领域的专家学者从事渔情预报工作的研究,积累了大量宝贵的数据资料。本论文是基于下列三个条件开展的:(1)水产领域对渔情预测的迫切需求;(2)长期积累的中西太平洋海域金枪鱼围网作业数据;(3)数据挖掘方法在预测方面的良好效果。主要研究了将数据挖掘方法(DM,DataMining)应用于中西太平洋海域金枪鱼围网渔业的渔情预测之中,利用面向属性规约算法对数据进行预处理,再通过数据挖掘方法中的信息增益分析技术和一种面向粗糙集的属性化简方法对历史数据进行处理分析,从可能影响该海域金枪鱼产量的众多因子中确定出与该海域金枪鱼产量变化密切相关的关键影响因子,进而通过多元回归方法构建中西太平洋海域金枪鱼围网渔情预测的数学模型。通过这个模型我们可以根据卫星预测的环境因子数据,在围网作业前较准确地预测渔情而为渔业资源评估、渔况分析、渔场探索等提供技术支撑。为远洋渔业生产提供可靠信息,有助于避免长期存在的盲目捕捞,减少盲目出海造成的成本浪费,进一步使得远洋渔业稳步发展,从而提高我国的国际渔业地位,维护我国的海洋权益,减轻我国近海渔业资源的压力。
本论文的目的是利用数据挖掘方法确定影响中西太平洋海域金枪鱼围网产量的关键环境因子,进而构造预测模型。主要研究内容为以下几个方面:
(1)通过阅读大量的渔业资源与渔场学方面的论著和文献,了解大量海洋渔业方面的知识,掌握对鱼类分布有较大影响的海洋环境因子,其中包括海洋表面温度(SST)、海洋水温的垂直分布、海洋水温距历史平均值、海水盐度、温跃层等等。影响鱼类分布还有一些气象因素和生物因素。在本论文中主要研究的是海洋环境因子与中西太平洋海域金枪鱼围网渔场形成的关系。
(2)收集中西太平洋海域(20°N~25°S,175°W以西[2])海洋环境因子数据,包括海水表面温度SST、海水水温垂直分布(各水层温度)、海水表温距历史平均值SSTA、相邻水层间温差等,以及1990年1月到2001年7月之间该海域金枪鱼围网作业产量数据。环境因子中SST和SSTA数据的空间分辨率是1°×1°,海水水温垂直分布数据的空间分辨率是1.875°×1.875°,而产量数据是5°×5°区间内的平均值。因此在数据分析前必须对数据进行处理,确保使用同一标准进行度量,我们采用算术平均法对数据进行同一化处理,提高数据的可用性和可靠性。
(3)通过对数据挖掘方法的深入研究,选择合适的算法应用到本课题中,确定影响WCPO金枪鱼围网产量的关键环境因子,进而构建渔情预测模型。本论文首先运用数据挖掘方法中的信息增益分析技术对1990年1月到2001年7月的中西太平洋海域的SST、水温距历史平均值SSTA、12.5米水层温度、37.5米水层温度、62.5米水层温度、87.5米水层温度、137.5米水层温度、187.5米水层温度、237.5米水层温度、287.5米水层温度以及两两水层间平均每米温差等18个海洋环境因子与该海域鲣鱼围网作业产量数据进行分析,找出与产量强相关的属性集,去除冗余属性,大大提高系统潜在知识的清晰度。
(4)为了避免只依赖某一种工具,选取多种工具是非常必要的,也是非常明智的试验方法[3]。为了确保(3)中结论的正确性,本论文另使用一种面向粗糙集的属性化简方法(利用Skowron提出的可辨识矩阵得到属性的最佳化简,)同样对上述18个因子及产量数据进行分析,找出影响WCPO鲣鱼围网作业产量的关键属性集。
(5)结合上述两种方法的结果及领域专家的意见,确定强相关影响因子集,利用多元回归方法构建预测中西太平洋海域鲣鱼围网产量的数据模型。
本论文首次通过大量影响产量的海洋环境因子出发,对中西太平洋海域金枪鱼围网渔情预报进行了研究,并获得了有价值的结论,进而构建了预测效果较好的预测模型。为渔情预测研究开辟了一条新的道路,同时也验证了信息熵分析技术和面向粗糙集的数据约简方法在确定相关因子方面是非常有效的。