论文部分内容阅读
数据挖掘是数据库开发、研究和应用最活跃的分支之一,它是采用人工智能的方法对数据库和数据仓库中的数据进行分析、获取知识的过程,这是一个多学科交叉研究领域。数据挖掘的方法有很多,聚类分析是其中的一种目前最有应用前景的方法。因为聚类分析能作为一个独立的工具来获得数据分布的情况,观察每一个簇的特点,并能集中对特定的某些簇作进一步的分析。微粒群优化算法(PSO算法)是由Kennedy和Eberhart于1995年提出的一种基于迭代的优化算法。系统初始化为一组随机解,通过某种方式迭代寻找全局最优解,然而聚类分析容易陷入局部最优解,因此本文提出了基于微粒群算法的聚类分析。PSO算法和遗传算法(Genetic Algorithm,GA)类似,但是PSO算法没有GA算法的“选择”、“交叉”、“变异”算子,编码方式也比GA简单,并且很多情况下要比遗传算法更有效率,所以基于微粒群算法处理优化问题是一个很有意义的研究方向。对学生原始成绩进行等级评定,是教学管理中的重要环节。传统的等级评定方法是基于绝对分数的评价,这种方法存在一些缺陷,例如:如果某次考试题目稍难,学生的整体成绩将偏低。如果按照传统的等级评定方法来评价学生将有失公正,而且也无法合理、有效地评价教师的教学效果。因此本文借鉴数据挖掘中聚类分析的思想,使用基于微粒群技术的聚类分析算法对学生的原始成绩进行等级划分,可以有效地克服传统评定方法的缺陷。本文主要作了以下几项工作:(1)研究并改进了数据挖掘技术中的聚类分析算法。由于K-平均值算法(k-means算法)分类的结果依赖于初始聚类中心的选择,对于有些初始值k-means算法可能收敛于次优解。针对直接k-means算法对随机初始聚类中心的敏感,容易陷入局部最优解的缺点,本文给出了引入聚类半径后进行初始聚类中心的k-means算法。(2)研究了微粒群优化技术并将其与k-means算法有机结合,提出了基于微粒群的聚类分析算法。由于PSO算法是一种基于迭代的优化工具,系统初始化为一组随机解,通过某种方式迭代寻找最优解,而K-均值法容易陷入局部最优解,本文将微粒群算法应用于改进后的k-means算法之中,以求得到比较好的聚类结果。(3)针对传统的学生成绩等级划分的缺点,以及直接k-means算法容易陷入局部最优解的缺点,本文将改进后的基于微粒群的聚类分析应用于学生成绩的等级划分中。通过应用改进后的算法对一组成绩进行聚类,发现改进后的算法能够对学生的成绩比较科学、准确、公平、公正地评价,同时聚类得到的结果也是评估教学质量的重要依据。