论文部分内容阅读
数据挖掘技术在当前得到了广泛的应用,目前主要应用于金融、生物制药、银行信贷等领域,然而对环境监测数据在环境监管领域的应用研究还较少。在总量减排的要求之下,环境监测系统在国内不断普及,随之产生了大量的环境监测数据,而且随着政府数据公开工作的推进,环境监测数据的获取途径也在不断增加。因此,探索适用于当前环境监测数据特点的数据挖掘技术,为环境监测数据监管工作提供新的思路就显得尤为重要。鉴于上述问题,本文通过文献调研对当前数据挖掘工具进行分析与对比,筛选出适合当前环境监测数据特点的挖掘工具,确立了以Python作为主要开发语言,以其Scrapy数据采集框架作为主要工具应用于数据挖掘准备阶段,以其pandas,numpy模块作为主要工具应用于数据分析阶段,以其Matplotlib模块作为主要工具应用于绘图阶段的数据挖掘流程。在确立了从数据准备、数据分析、结果展示的环境监测数据流程的基础上,对河南、湖南、四川、浙江、新疆、内蒙古等省和自治区的环境监测数据中的企业排污数据进行了数据采集,搭建了关系型数据库(MySQL)和分布式数据库(Cassandra),分别用于存储企业排污监测数据的元数据和具体监测数据。并以火电企业为例对其机组排放数据近三个月的数据进行数据分析,通过数据挖掘可以较为容易的发现排放规律和异常情况,使得环境监管的工作得以简化。并验证了上述数据挖掘工具的选用以及分析流程适用于当前环境监测数据的挖掘,为环境监测数据监管工作提供新的思路。