论文部分内容阅读
近年来,广东省高中阶段招生报名和录取都是通过网上进行,本人曾经参与了广东省高中阶段招生报名服务平台(中考平台)的开发与设计。通过对中考平台中获得的数据进行分析,发现每次对考生的数据进行分析都需要通过编写复杂的SQL语句才能进行相关统计,并且难以多方位地对数据进行查询分析。每年中考过后,数据都仅仅是经过简单的归档备份后就再不使用,对数据造成了极大的浪费。人们希望对考生数据进行更加深入的分析来得出一些未知的知识,以便利用这些知识来进行决策。数据挖掘与数据仓库是目前解决这个问题的主流解决方案。
本文的考生信息数据都是通过广东省中考平台上采集到的,首先简要介绍了广东省中考平台的设计概况和本人所负责的相关功能模块。在平台的开发工程中发现由于数据量庞大且数据结构复杂,为了保证平台正常运行,每年都要把往年的考生数据清空;对考生信息的统计分析也不方便,虽然中考平台有相应的统计功能,但由于各个功能模块相对独立且可选择的属性有限,很难适应一些特定的需求。为了解决这一问题,本文提出了对考生信息建立数据仓库。
接着对考生信息数据进行详细分析,并根据管理部门的业务需要,面向不同的主题,根据《数据仓库工具箱:维度建模的完全指南》四步骤维度建模方法来建立考生数据仓库各主题的星型模型并且对考生数据仓库进行概念模型、逻辑模型和物理模型设计。利用SQL Servers2005的BI系统(Analysis Servers、Integration Services)对考生数据进行数据清洗、转换,并根据前面建立好的考生数据仓库模型建立多维数据集市,根据决策管理的需要,使用OLAP工具面向不同的主题实现了联机分析处理。考生数据仓库建立完成后通过对考生录取信息的统计分析发现汕尾市地区的学校录取后考生报到率偏低,造成了学校招生数量不足,其他符合条件的考生又不能顺利被录取到满意的学校。为了找出影响考生报到率高低的相关因素,对考生录取主题使用决策分类方法进行数据挖掘,再针对这些因素制定相关的政策措施,可以有效地提高考生的报到率讲而对当前的教育现状有所提高。