论文部分内容阅读
数据挖掘是从海量数据中提取用户事先关心却未曾知悉的有价值信息。作为一个新兴的多学科交叉研究领域,数据挖掘的应用正在逐步深化,在各行各业的决策支持中也扮演着越来越重要的角色。计划生育药具是贯彻落实我国计划生育基本国策和促进人口长期均衡发展的重要物质保证,目前药具管理服务平台数据库及相关数据库中积累了大量数据。由于这些数据具有较强的时效性和地域性,将数据挖掘技术和WebGIS引入其中,智能地挖掘数据背后潜在有价值的知识,适时地提供具有规律性、指导性以及预测性的实用信息,提高政府部门的服务水平和科学决策水平,更好地推进计划生育避孕药具管理工作的可持续、健康、高效和协调发展,已成为目前亟待研究解决的问题。论文以研究和实现基于WebGIS的计生药具数据挖掘系统JSMiner(下面论文中简称JSMiner)为核心,主要做了以下几方面的工作:1.给出基于可视化制导的数据挖掘过程模型。通过对经典数据挖掘过程模型的研究,建立基于可视化制导的数据挖掘过程模型,突出可视化技术在整个数据挖掘项目中的重要性。该过程模型的指导思想贯穿整个JSMiner项目的全过程。2.提出可信关联规则挖掘的极大团改进算法MaxC-SQL。针对传统算法中支持度不易确定和数据集具有倾斜支持度分布的特点,引入可信关联规则,规则中每个项目的支持度都处于同一数量级,规则的置信度直接反映其可信程度。结合关系型数据库的SQL语句优势,提出了一种基于极大团思想的MaxC-SQL算法,并将其集成到JSMiner中。3.给出基于GIS和专题图的多视角多尺度可视化技术。针对数据量逐渐增长和数据信息的多元化及复杂化、地域关联性强等特点,引入了基于GIS和专题图的可视化技术,改变了传统系统以文字为主的枯燥呆板模式,实现了更直观和多元的表现手段,探索出决策支持的新途径。4.研发出有状态双模式的数据挖掘系统JSMiner。整个系统框架分为用户身份认证模块、WebGIS模块和数据挖掘模块三部分。基于RBAC的身份认证保证了系统的安全性和用户信息的完整性;WebGIS模块的设计中充分利用了集群服务、多级缓存机制等,极大提高了系统的响应率和并发性;数据挖掘模块中引入PMML标准语言、算法模块化和Agent思想等,大幅地提高了系统的兼容性和可扩展性。同时,系统提供了普通和专业化两种挖掘界面,既满足了不具备数据挖掘背景知识的普通用户需求,又满足了专业数据挖掘人员的需求,拓展了系统的应用范围。内置的基于向导库的挖掘任务推理机制提升了系统的智能性。在系统设计的基础上,以VS2008为开发平台,进行了系统的实现工作,给出了整体开发方案、实现细节、集成部署和优化等。5.验证了JSMiner系统的可行性和有效性,给出了JSMiner在试运行过程中得到的一些挖掘结果。