论文部分内容阅读
1980年“大数据”这一陌生的词语在美国著名未来学家阿尔文.托夫勒著的《第三次浪潮》中被称之为“第三次浪潮的华彩乐章”,大数据一词开始出现在世界舞台。从其出现逐步成为一个时代热门,直至象征着新时代的到来,大数据已经渗透到当今科技物联网中的每一个行业,成为科技发展进步的关键因素。在当今迅猛发展的信息化时代下,数据积累越来越多,数据中潜在的有用信息也越来越丰富,直接从原始数据中提取信息具有较大难度,因此对原始数据进行预处理、数据有效集成,直接影响数据挖掘知识提取的效率。随着我国远洋渔业发展的不断壮大,从卫星获取的渔业遥感数据越来越多,如何利用海量数据进行相应研究分析,提高我国的渔场渔情分析水平已成为国家海洋渔业部门及渔业公司的研究热点之一。在以往中心渔场分析及渔情预报的研究过程中,对于数据的预处理通常使用excel、spss等相关处理软件,然而在大数据背景下的数据具有多样性,单纯地使用某一固定的数据预处理软件并不适用于所有的数据,因此根据不同数据特征选择合适的预处理方法或软件极为重要。本文以南太平洋长鳍金枪鱼为研究对象,首先对其生长过程中的海洋环境数据与产量数据进行预处理,随后将环境数据与渔业产量数据进行融合叠加,为后期渔情预报等研究提供数据基础。同时,为了方便后续处理数据,实现数据快速融合、高效检索、相互转换和有效匹配,建立了相应数据规范标准,并设计数据集成管理系统。本文的主要工作如下:(1)海洋环境数据以及渔业作业数据的获取,海洋环境数据包括:叶绿素浓度、海面高度和海表温度等,其中海面高度数据下载格式为.nc形式,叶绿素浓度和海表温度数据获取格式都是.csv形式。数据获取的来源有oceanwatch、美国国家海洋和大气管理局(Nation Oceanic and Atmospheric Administration,NOAA)环境数据库和哥白尼海洋环境监测服务中心(Copernicus Marine Environment Monitoring Service,CMEMS)等,编写了简易的数据爬虫脚本,自动下载海洋环境数据。渔业作业数据为南太平洋长鳍金枪鱼延绳钓数据,数据格式为.csv形式。数据获取来源为:中西太平洋渔业委员会(WCPFC)网站和深圳市联成远洋渔业集团。(2)由于数据获取渠道众多,数据下载格式的不同及一些不可抗力因素的影响,使得在大量数据下难免会存在数据缺失等问题。针对数据下载格式不一,本文将数据格式统一转换为.csv格式。因为.csv数据格式相比传统的.xls格式具有更广的适应性。.xls是二进制形式的文件,通常只能用excel打开查看,.csv是通用的文件格式,在后期也能方便地导入数据库中。在处理数据缺失中,分析环境数据与渔业产量数据各自的数据特点,利用三种常用地质学插值算法对数据进行补缺,通过交叉验证分析,对比模型优劣的参数标准得出经验贝叶斯克里金插值方法不仅在环境数据插值上有较好的插值效果,在渔业作业数据插值上也更优于泛克里金插值方法和局部多项式插值方法。(3)对预处理后的数据,通过ArcGIS软件把3种环境数据进行归一化,生成像素值为0-255的灰度图,本文创新性地提出将3种环境数据分别作为RGB三个通道值,并利用统计学及回归分析两种方法计算环境因子与渔业CPUE之间的相关性,从而确定相应权重。在图像融合技术的基础上,对各环境因子赋上相应权重,融合成一张彩图,随后将渔业产量与环境融合图进行叠加,最终生成一张包含叶绿素浓度、海表温度、海面高度和渔业CPUE数据信息的图,一定程度上提高了数据挖掘从图片中提取有效信息的效率。运用LeNet卷积神经网络模型对两种不同相关性分析方法融合图进行实验,根据实验结果分析得出,通过统计学方法中皮尔森相似性求得的权重融合叠加图更适合研究分析。(4)设计数据集成管理系统,实现数据快速筛选、查询,结合ArcGIS二次开发实现数据补缺及灰度图生成,最终进行图像融合。为用户提供高效的数据存储、处理以及访问服务。