论文部分内容阅读
算法的参数自适应是数据挖掘领域一个重要的研究课题,它的目标是使算法参数能够进行自动调整,从而消除用户在算法参数设置经验方面的不足及差异,使用户能够方便地使用算法并得到理想的运行效果。本文对比了已有的参数自适应方法,引入学习的思想来实现参数自适应,并基于这种方法对自组织映射网络SOM进行改进,提出一种具有参数适应能力的SOM版本,即参数适应自组织映射网络(PASOM)。PASOM算法除了能够对与模型结构相关的参数进行自适应之外,还能对非结构相关的参数进行学习和自适应,这是其优于动态模型方法的地方。另一方面,PASOM中的参数学习思想类似于一种算法框架,它与目标算法SOM之间具有较强的独立性,因此容易被扩展到其它目标算法之上,赋予其参数自适应的能力。
PASOM的算法过程包括前期准备和算法应用两个阶段。前期准备阶段的主要任务是确定经验实例的模式,即其数据结构。这部分工作是参数学习的基础,而且只需要进行一次。而算法应用阶段则包括了经验学习模型训练、参数学习与预测以及底层SOM调用等过程,它是PASOM参数自适应能力和数据挖掘功能的体现。
在模型结构方面,本文提出了PASOM的双层网络结构,它由经验学习模型和底层SOM网络两个主要部分构成。经验学习模型为SOM提供参数学习与预测的能力,是PASOM参数自适应能力的来源;而底层的SOM则为PASOM提供数据挖掘的能力,满足用户的数据分析需求。
其次,通过对比传统的学习问题,论述了参数学习问题的特点,并针对其特点提出一种基于自组织映射网络的经验学习模型,它的输入是一组数据特征描述因子,而输出是底层SOM的参数方案。经验学习模型利用了映射网络的拓扑有序性作为索引,快速找到与当前输入相近的经验实例的集合,根据其中各实例的经验效果判断其对当前系统决策的影响作用的大小,从而由这些经验实例共同合作并预测出合理的参数方案。
然后,本文设计了丰富的实验,完成了SOM的稳定性、效果评价函数的合理性以及环境描述因子有效性等方面的验证工作;并且还为PASOM算法和SOM算法在某地区政府经济管理数据集上的运行效果进行了对比,说明了PASOM的优越性。
最后,由于本文研究课题来源于实际的政府数据分析系统研发项目,因此文中还基于PASOM算法给出了系统的设计与实现,这也使得本文的研究内容具有更好的实用性。