论文部分内容阅读
数据挖掘研究经过十余年的发展,初期蓬勃的数据挖掘算法研究使各种数据挖掘技术都拥有众多的算法,这些算法各具特色,涉及了数据库、统计学、人工智能、机器学习等各领域的成果,近几年,数据挖掘算法研究虽然不再是研究的热点,数据挖掘以其丰富、灵活的分析功能和强大的分析能力向各行业渗透,逐步转向应用研究,结合应用领域的特色而得到发展。水文数据挖掘的研究起步阶段较晚,系统地从数据挖掘的角度分析和解决问题的成果很少,特别是充分挖掘国家水文数据库中的信息和知识方面的研究不够。 水文相似年问题是水文领域研究的难点,此问题的解决对区域水文的重现期分析、频率分析、水文预报、灾害性评估等有重要的意义。本文通过对水文数据相似性进行分析,提出了采用聚类分层分析,以相似距离为尺度的水文相似年查找方法。 研究探索了包括目标理解、准备数据、数据预处理、建立模型、评估解释、知识应用等水文数据挖掘的六个过程。并采用公共的数据处理和挖掘算法,实现各过程之间数据无缝连接,形成了松散耦合的水文数据挖掘系统体系框架。 在实施水文数据挖掘过程中,将数据挖掘的一些数据处理方式应用到了水文领域,同时也采用了水文领域中的一些数据处理技术,实现了数据挖掘领域与专业领域的数据处理和评价方式融合。 通过选取江苏省国家水文数据库中的两个不同代表性区域的水文资料,严格按照水文数据挖掘的过程控制,以水文相似年查找为突破口,实施数据挖掘。在全方位地对结果分析、对比和评价后发现,以数据挖掘的方法,采用聚类分析中分层聚类的凝聚算法,进行水文相似年查找所发现的结果与水文领域专家知识基本相符。