论文部分内容阅读
随着以计算机和网络为代表的信息技术的发展,越来越多的企业、政府组织、教育机构和科研单位实现了信息的数字化处理。数据库,特别是数据仓库已经被广泛地应用于企业管理、产品销售、科学计算和信息服务等领域。同时,信息量的不断增长也对数据的存储、管理和分析提出了更高的要求。数据挖掘技术可以帮助人们从数据库,特别是数据仓库的相关数据集中提取出所感兴趣的知识、规律或更高层次的信息,并可以帮助人们从不同角度上去分析它们,从而可以更有效地利用数据库或数据仓库中的数据。数据挖掘技术不仅可以用于描述过去数据的发展过程,进一步还能预测未来趋势。其中,聚类分析是数据挖掘技术中的重要方法。K-均值算法是聚类算法的一种常用算法,但该算法存在许多不足之处。本论文的目的在于分析K-均值聚类算法,提出改进的K-均值聚类算法,利用dijkstra(迪杰斯特拉)算法对该算法进行改进,减弱其算法受噪声和孤立点影响的程度,并且减少了迭代运算次数,提高了算法的效率,避免了不必要的资源浪费。论文完成的主要工作如下:首先,介绍了数据挖掘技术的相关概念、应用领域、常用工具、过程模型及各种数据挖掘分类方法等。其次,阐述了数据挖掘技术中的各种聚类算法。论述和分析了K-均值算法的不足,现有的改进方案,并且叙述了本文如何使用迪杰斯特拉算法对K-均值聚类算法进行的改进。最后,通过将改进的K-均值算法应用于数控锅炉系统的实际数据中,验证了改进的K-均值聚类算法比传统算法具有更明显的聚类效果和更高的可解释性。并通过该算法的应用实现了数控锅炉系统的节能、节煤的目的,从而提高了设备的经济价值。随着数据挖掘技术的不断发展,我相信数据挖掘技术必然会不断地走向成熟,更好地与各个实际应用领域融合在一起。