论文部分内容阅读
Internet的飞速发展和数据库技术的成熟,造成了”数据冗余,信息贫乏”的局面;数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们也希望能够在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。
本文主要针对SOM聚类分析技术展开基础研究。研究工作主要包括三方面内容:一,采用两种新方法在保证模型质量的同时加快了SOM网络的训练速度:在找到影响聚类模型质量的关键因素的基础上,以权值变化量作为SOM网络收敛的新标准;以归一化后的典型样本作为权值向量的初始值。二,以KDD实现的一般过程为主线,通过大量的实验对SOM算法参数的选择进行分析,详细介绍了基于学生信息的聚类分析模型的建立、确认、检验、评估和优化各个步骤的设计与实现。三,对聚类结果也进行了大量的分析,得到了一些对教学有实际指导意义的结论。
此外,本文采用面向对象的编程方法,实现了专门用于可视化聚类结果的一个类,该类提供的方法不仅可以对聚类结果以图形的方式进行描述,而且对SOM网络本身的可视化也得到了很好的应用。