论文部分内容阅读
近年来,数据挖掘引起了信息产业界和整个社会的极大关注,其主要原因是数据挖掘可以将大量的数据转换成有用的信息和知识。聚类分析是数据挖掘的一种基本技术,它采用无监督的方式从大量数据中提取出有用的信息和知识。但在信息时代,数据量呈爆炸式增长,这使数据的存储和信息的提取面临重大的挑战。特别是在很多终生学习的应用中,复杂多变的不平稳数据环境,更让聚类分析陷入了困境。本文提出一种基于局部数据分布的自组织增量学习神经网络(Local-SOINN),在进行聚类分析时有如下优点:·实现样本增量、类增量或者更复杂环境中的学习;·自动报告最适宜的聚类个数;·刻画出原始数据的拓扑结构;·保存原始数据的局部分布信息;·找到任意形状的聚类;·对噪声具有鲁棒性。由于我们的算法是以在线"1-pass-throw"的方式进行训练的,所以在一定程度上缓解了海量数据的存储问题。Local-SOINN还可以增量式地学习,在不破坏已学知识的前提下自主学习新的知识,这样就能够胜任在不平稳数据环境下的聚类任务。另外我们的模型还可以刻画原始数据的拓扑结构,这在数据压缩、数据可视化方面有很大的潜在应用前景。总的来说,Local-SOINN将原始数据信息保存在节点及表示其邻居关系的邻接表中,节点信息用来刻画该节点周围的局部数据分布,而节点间的邻居关系用来表示数据的整体拓扑结构。还采用了改进的马氏距离作为度量准则,引入自适应调整的阈值策略和迭代的信息更新方式,达到在线增量学习的要求。此外,Local-SOINN通过合并和去噪操作,去掉网络中的冗余和噪声节点,使模型更好的模拟原始数据从而实现自动聚类。如果将模型中的节点看成PCA单元,Local-SOINN可解释成基于Local-PCA思想的一个实现。从另一个角度看,采取马氏距离作为度量意味着我们的算法是一个以增量方式工作的高斯混合模型(GMM)。这些联系为我们的模型奠定了坚实的统计理论基础。