基于Hive的高寒草地海量数据高效分析系统设计研究

来源 :农业资源与环境学报 | 被引量 : 0次 | 上传用户:jingbao0804
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
解决高寒草地的退化问题需要对高寒草地退化现状进行综合评价,而这需要相关数据作为支撑,本研究设计并实现了一个基于Hive的高寒草地海量数据高效分析系统,能对高寒草地的海量数据进行可靠、高效地存储分析.首先,平台设计基于Hadoop、Hive、Sqoop环境,通过节点和集群配置等步骤搭建完成;然后,通过期望最大化(EM)算法进行数据填充、数据导入、数据分区存储等步骤,完成数据抽取、转换、加载(ETL)及数据存储;最后,系统通过混合函数编码实现模糊查询功能,实验测试表明系统达到了预定的效果.随着文件大小的增加和总体数据规模的增大,系统整体存储和读取时间一直处于增长的状态,但平均运行时间(平均处理1 MB数据所使用的时间)处于降低的趋势,说明随着数据量的增加,系统并行处理海量数据的能力得到体现.使用2014年青海省称多县高寒草地样方监测数据和部分虚拟数据(总数据量约为3958万条,7.56 GB),对Hive集群以及关系型数据库SQL Server的数据查询效率进行对比.结果显示,当查询数据量为3958万条时,Hive集群数据查询的时间为SQL Server查询时间的67.8%.说明在数据量较大时,系统数据查询的效率比SQL Server更高.通过HiveQL对高寒草地生态数据进行分析处理,并开展相应的对照实验,对比发现,Hive数据分析技术与对照实验的处理结果相同.综上,将分布式数据仓库技术应用于高寒草地海量数据的存储与分析,较传统的数据存储与分析技术相比有明显的进步.本系统对海量数据处理效率高、可开发性强,可以很好地满足海量高寒草地数据的存储和分析要求.
其他文献
排污许可制是我国固定污染源环境管理制度改革的重大举措,是一项以总量控制为基础、提高环境质量为目标的具有法律意义的行政制度,畜禽养殖是农业领域唯一纳入排污许可管理的行业,对规范畜禽养殖排污行为将起到积极作用.本文在剖析畜禽养殖行业排污许可制度设计思路的基础上,全面调查与总结了全国畜禽养殖行业排污许可证申请与核发情况,深入分析了当前行业排污许可证核发与监管中存在的主要问题,并针对性地提出解决对策,为规范和推动畜禽养殖行业排污许可的实施提供参考.
耕地是人类改造和利用地表而形成的最古老和最广泛的人地系统,耕地质量是耕地系统诸要素耦合状态的表达,耕地资源是在一定时间、技术和经济条件下耕地开发利用价值的体现.本文厘清了耕地系统、耕地质量、耕地资源认知内涵与演进过程,解析了耕地资源的“自然-人文”构成要素与耦合关系、“水平-垂直”结构特征与形成机理、“生产-生态-生活”功能协同与转换关系、“物质-能量-信息”交换过程与响应机制,以及“经济-生态-社会”服务价值与演变规律,构建了“二维要素-三重功能-多元价值”的耕地资源认知系统,提出了系统认知耕地资源的新
土壤侵蚀是丹江口库区主要的生态问题之一,明确丹江口市土壤侵蚀敏感性的时空变化特征有助于深入认识丹江口库区的土壤侵蚀机理,也可为保护库区水环境提供依据.基于修正的通用土壤流失方程(RUSLE),结合丹江口市多山、地形破碎的地形特征,选择降雨侵蚀力、土壤可蚀性、地形起伏度、植被覆盖度、沟壑密度5个因子构建土壤侵蚀敏感性评价体系,借助ArcGIS 10.2平台,综合评价2012—2017年丹江口市土壤侵蚀敏感性,并分析研究区在不同下垫面要素下土壤侵蚀敏感性的空间分布特征.结果表明:丹江口市土壤侵蚀敏感性整体呈现
陆地生态系统碳源与碳汇的变化与土地利用/覆被变化(LUCC)的演变密切相关,为探讨土地利用变化对陆地生态系统碳储量的影响机制,基于1980—2020年LUCC数据集,通过多评价准则(Multi-criteria evaluation,MCE)的元胞自动机(Cell automata,CA)和马尔科夫链(Markov chain)模型,模拟伊犁谷地2030年的LUCC时空动态,耦合InVEST模型探讨土地利用变化下伊犁谷地1980—2030年陆地生态系统碳储量的时空演变格局.结果表明,MCE-CA-Mark
为探寻适合广东省典型镉(Cd)污染稻田土壤镉生物有效性测定方法及其管控阈值,以广东韶关、清远和广州三种典型Cd污染稻田土壤为供试土壤,系统比较了四种有效Cd提取方法(CaCl2法、HCl法、EDTA法和DTPA法)对土壤Cd的浸提能力,并分析两个品种水稻对Cd的累积吸收量与土壤有效Cd含量的相关性,探讨糙米Cd超过食品安全标准时各测定方法的风险管控值.结果表明,四种化学提取剂对土壤Cd的提取能力大小依次为0.1 mol·L-1 HCl>0.05 mol·L-1 EDTA>0.005 mol·L-1 DTP
永久基本农田布局优化的研究对保护耕地和保障粮食安全都具有重要的意义.为了实现立足于耕地数量、质量、生态三位一体理念的永久基本农田空间布局快速优化,本研究选取广东省罗定市作为研究区,从耕地数量、耕地质量、空间形态、空间规划和生态环境等5个层面构建永久基本农田布局优化指标体系.同时,以GIS技术作为分析工具,采用综合指标评价法对罗定市的永久基本农田空间布局进行现状分析及布局优化研究.结果表明,从空间分布来看,调整前后的永久基本农田分布格局基本一致,主要呈中间密四周疏、东西密南北疏的布局特征.布局优化后罗定市的
近年来畜禽养殖行业抗生素、激素等新污染物受到广泛关注,本研究利用CiteSpace软件对畜禽养殖废弃物新污染物的研究动态进行文献计量分析,得出了该领域的研究态势、热点和知识主题演化历程等,并提出下一步研究的重点方向与控制对策建议.研究发现,畜禽养殖废弃物新污染物的相关研究近年来呈现出发文量高速增长的趋势,我国和美国在该研究领域影响力表现突出;以抗生素和激素类为主的新污染物的来源、环境行为归趋和分析检测技术等方面是该领域主要的研究热点;新污染物的潜在生态环境与健康风险研究将成为未来重点关注的方向;在污染防控
在耕地质量数据调查与采集过程中会由于人为、环境等因素造成数据缺失,而目前数据缺失填充方法都存在适用性不足的问题,为完善耕地质量数据库从而提高耕地质量评价精度,对耕地质量评价缺失数据填充方法的研究是十分重要的.本研究以广州市从化区耕地质量数据库为样本集,根据空间相关性和空间分布将数据集划分为空间关联性数据集和非空间关联性数据集,利用多种填充方法对其进行缺失填充模拟,采用十字交叉法进行精度验证.结果表明:选取数据整体异常值比例不足1.2%,且高程、气温、有效锌等25组因素具有空间相关性.对空间关联性数据填充精
重金属污染已严重危害人类健康与粮食安全,为探明不同时期土壤重金属动态变化规律,采集了天津市武清区的95个农田表层土,并对样品中Pb、Cu、Cr、Ni、Zn、Cd和As的含量进行测定.基于地统计法分析农田土壤重金属空间分布规律,探讨2005年和2019年土壤重金属的累积、潜在生态风险以及土壤中重金属的空间分布特征.结果表明,除Ni以外,重金属Pb、Cu、Cr、Zn、Cd和As随着时间的推移累积污染不断增加.地累积指数和潜在生态风险指数结果表明,Cd和As是研究区生态风险的主要贡献者.2005年和2019年重
随着畜禽养殖规模化进程加快,畜禽养殖污染对环境的影响日渐受到重视,其治理技术和环境管理体系也逐步成熟.本文全面疏理了我国畜禽养殖污染防治环境管理相关政策、标准、规范及管理措施,总结了不同时期主要的技术思路及特点,并从行业发展和生态环境保护的角度重点分析了当前畜禽养殖污染防治环境管理体系.最后结合我国特点,提出适合现代环境管理体系下,畜禽养殖污染防治环境管理发展方向.研究结果可以为引导畜禽养殖污染治理方式、规范畜禽养殖环境管理提供参考.