论文部分内容阅读
摘要:文章首先简要阐述了数据挖掘过程及常用的神经网络模型,并在此基础上对基于神经网络的数据挖掘方法进行探析。通过研究能够对促进神经网络技术在数据挖掘领域中的推广应用有所帮助。
关键词:神经网络;数据挖掘;算法
1.数据挖掘过程及常用的神经网络模型
1.1数据挖掘过程
数据挖掘是一个由诸多步骤共同组成的具有反复特性的迭代过程,其最主要的目的是从海量的数据当中,找出人们最感兴趣的信息。大体上可将数据挖掘过程分为3个阶段,即数据准备、模式提取以及结果的解释与评估。
(1)第一个阶段为准备所需的数据,具体可将这个阶段细分为数据清洗、数据选取以及数据预处理和数据表示四个步骤。数据是数据挖掘过程中不可或缺的重要前提和基础,但大量的实践表明,只有数据是很难进行挖掘工作的,必须在对数据进行挖掘前,做一些相应的准确工作,这些工作也成为数据挖掘的重要环节。
(2)第二阶段为模式提取。该阶段是数据挖掘的核心环节,需要先明确数据挖掘的任务及目标,并在正式确定目标之后,选择合适的算法或工具,开始对数据进行挖掘操作。在这个环节当中,算法是关键,即可选择单一的算法,也可多种方法联合使用,具体的选择应视挖掘的任务而定。
(3)第三阶段为解释与评价。挖掘过程中发现的模式应当以最容易理解的形式呈现给用户,其间要对发现的模式进行比较、校验,看是否与用户的要求相符,进而确定出挖掘效果。
1.2神经网络模型
现阶段,已知的人工神经网络模型有40多种,较为常用的有以下几种:
(1)BP神经网络。BP是误差反向传播的简称,这种神经网络归属于前馈网络的范畴,其具有多层映射的特征,该网络所采用的主要学习方式为最小均差,结构简单、学习训练算法成熟、工作状态稳定是BP模型的3大特点,正因如此使得该模型获得了非常广泛的应用。由于BP算法对误差函数有着一定的要求,即误差函数必须可微,故此,为了有效克服局部极小的问题,多以全局优化算法为主,如遗传算法等。
(2)RBF神经网络。RBF是径向基函数的简称,该网络与BP网络在归属的范畴上相同,也属于前馈网络。RBF网络在激活函数方面有多种可选择,最常用的是高斯函数,因为这种函数具有很多显著的特点,如形式简单、径向对称、容易解析等等。由于RBF网络是一个多层前馈网络,故此只要隐单元足够多,便可达到任意给定精度,其在逼近目标时,采用的化整为零的思想,即将目标分解成为若干个局部对象。
(3)混合型神经网络。这是—种将其它方法有机融合到—起构成的神经网络模型,它与传统网络模型的拓扑结构相同,但学习机制却有所不同。常用的混合型神经网络有模糊和进化2种。
2.基于神经网络的数据挖掘方法
2.1神经网络在数据挖掘中的应用优势
神经网络是一门实用性较强的科学技术,其集多种现代技术于一身,有诸多并行分布的处理单元连接而成。从系统的角度上讲,神经网络归属于动态系统的范畴,具有自适应和非线性的特征,对噪声数据有着非常强的容错和承受能力。由于神经网络所具有的这些特点,使得基于神经网络构建的数据挖掘模型具备了与之相同的特点,这样便可以适应数据环境的不同变化,由此进一步提升了数据挖掘模型的准确性。可见,神经网络十分适用于数据挖掘领域。
2.2基于神经网络的数据挖掘过程
由上文分析可知,在数据挖掘领域中,神经网络具有较高的适用性,以此为基础的数据挖掘过程分为以下几个阶段。
2.2.1数据的选择及预处理阶段
数据选择的主要目的是为神经网络的构建提供相应的数据支撑,这个过程可以细分为以下2个环节:(1)对数据进行训练,(2)对数据进行测试。观察和理解是选择数据时必须做的工作,当样本数据集确定之后,便可按照挖掘目标,并结合挖掘方法,对数据进行编码处理。
2.2.2网络训练与剪枝
当数据选择和处理工作完成之后,数据挖掘人员需要选用一个神经网络模型,同时确定相应的网络训练算法,通过该算法对神经网络进行训练。剪枝的主要作用是以神经网络的准确性为前提,去除掉没有意义和价值的冗余结点由此会使网络模式更加简练,也更容易理解。
2.2.3规则的提取与评估阶段
经过以上2个阶段后,神经网络当中便会蕴含着学习到的规则,也就是常说的知识,但是此时的规则由于存在形式的原因,不容易理解,所以需要对规则进行提取。提取规则的主要目的在于将规则的形式转化为容易理解的形式,如模糊逻辑、决策树等,然后再借助测试样本对规则的可靠性进行测试、评估。
2.3基于RBF神经网络的数据挖掘模型设计
下面本文以RBF神经网络为依托,对数据挖掘模型进行设计,其整体框架结构如图1所示。
整个系统由以下模块构成:数据获取、数据处理、数据分类与评估、控制与干预、GUI人机交互、知识库。系统模块的设计情况如下。
2.3.1数据准备
①数据选择。在数据选择中,让用户利用数据访问接口对数据集进行自行选择,进一步确定数据集类型、数据集名称及数据集处所位置。数据访问接口为对象模型,该模型覆盖了数据访问的各个层面,具体可使用的接口包括ADO,DAO和ODBC三种,本系统采用的数据库访问方案为DAO/ODBC,选择该方案的主要原因是DAO既能够与Microsoft Jet数据库引擎并用,还可借助ODBC Direct选项不与其并用。同时,通过DA0对Jet进行访问更加简单、便捷,并且使用DATE控件和DAO,能够创建出与数据库本身无任何关联性的虚拟代码。②数据清理。该环节的主要目的是将不希望包括在内的观测值筛选掉,操作过程既可借助SQn吾句实现,也可借助相关程序予以实现。③数据合成。该环节是将独立的数据合成数据集,操作过程较为简单,只要规则确定便可利用sQL语句或相关程序来实现。 2.3.2数据挖掘
(1)挖掘方法的选择与管理。该环节在系统中具有重要的作用,与系统的可扩充性和最佳挖掘方法的选择有关。挖掘方法管理可对系统中使用的全部方法所产生的接口信息进行保存,如对文本文件分词方法、Web日志的Session戈0分方法等挖掘方法中产生的特定数据信息予以保存,粗糙集、决策树属于通用的挖掘方法。在对该模块进行设计的过程中,针对分类预测问题,使用了聚类和神经网络以及统计学等方法。选择方法的主要目的是几乎所有的方法都是数据依赖,并没苻一种方法能够在所有的数据上表现良好。因此在方法选择的初始阶段,通过专家的人为干预是有必要的。经过对前人的研究成果进行总结后发现,将多种不同的方法联合运用可大幅度提升运用效果。对于本文构建的数据挖掘系统而言,其核心部分为数据挖掘模块,该模块的设计分为3个方面:①训练模块,以训练RBF网络为主,采用数学模型方法构建网络分类模型;②预测模块,在分类实际数据的基础上,将分类产生的数据结果快速传递到评估模块;③重构模块,该模块地能够确保数据挖掘模型具有—定的可扩展性和自适应能力,按照具体需要对模型进行重新构建。(2)结果显示。该环节以多种形式显示数据挖掘结果,如列表、树、图等是最为常见的显示方式。本文采用了可视化的方法进行数据挖掘结果显示,这样能够使用户对挖掘结果的了解更加直观、具体。(3)结果评估。在评估中,采用数据挖掘评价方式,通过比较分析不同模型下产生的数据挖掘效果,从而得出各类型分析工具的最终结果,再配以相应的标准图标进行直观显示,方便用户利用相关数据信息开展定量评价。在结果评估中,强调获取规则的价值评定,其评价关键点为查看数据挖掘结果与用户期望的符合程度,并对挖掘结果的可靠性和价值性进行评价,将其作为知识库是否纳入规则的重要评判依据。在GUI交互界面上,数据挖掘系统与用户可以进行交互操作。
2.4安全性保障措施
基于RBF神经网络的数据挖掘系统在使用过程中,安全性非常重要,为此,本文提出几点安全性保障措施,以此来确保数据挖掘的安全。
(1)采用登录机制确保数据安全。所谓的登录机制主要是针对客户端的一种安全控制措施。由于用户与服务器端需要通过网络的方式进行数据传输,为了进一步提高数据传输的安全性,可对数据进行加密处理,并将用户挖掘到的数据结果存储在服务器上,由此在不同的计算机上使用客户端均可对之前挖掘到的数据结果进行利用。
(2)设置权限。可以通过用户管理来完成用户的注册、登录以及使用权限管理。当用户需要使用数据挖掘系统进行数据挖掘时,要先进行账号注册,并在使用前通过注册的账号和密码进行登录,从而保证每个用户的数据安全。此外,用户管理能够实现分级管理,赋予不同用户不同的权限,这使安全性获得了进一步提升。
3.结语
综上所述,神经网络因自身所具备的诸多优点,在数据挖掘领域获得了广泛应用。本文通过对前人研究成果的借鉴,提出了基于RBF神经网络的数据挖掘方法,并对数据挖掘系统各主要模块的设计进行了论述。对于一个基于神经网络的数据挖掘系统而言,其不但复杂而且庞大,本次的系统设计仅仅是一个尝试,只实现了系统的基本功能,更多的功能有待进一步开发和完善。
关键词:神经网络;数据挖掘;算法
1.数据挖掘过程及常用的神经网络模型
1.1数据挖掘过程
数据挖掘是一个由诸多步骤共同组成的具有反复特性的迭代过程,其最主要的目的是从海量的数据当中,找出人们最感兴趣的信息。大体上可将数据挖掘过程分为3个阶段,即数据准备、模式提取以及结果的解释与评估。
(1)第一个阶段为准备所需的数据,具体可将这个阶段细分为数据清洗、数据选取以及数据预处理和数据表示四个步骤。数据是数据挖掘过程中不可或缺的重要前提和基础,但大量的实践表明,只有数据是很难进行挖掘工作的,必须在对数据进行挖掘前,做一些相应的准确工作,这些工作也成为数据挖掘的重要环节。
(2)第二阶段为模式提取。该阶段是数据挖掘的核心环节,需要先明确数据挖掘的任务及目标,并在正式确定目标之后,选择合适的算法或工具,开始对数据进行挖掘操作。在这个环节当中,算法是关键,即可选择单一的算法,也可多种方法联合使用,具体的选择应视挖掘的任务而定。
(3)第三阶段为解释与评价。挖掘过程中发现的模式应当以最容易理解的形式呈现给用户,其间要对发现的模式进行比较、校验,看是否与用户的要求相符,进而确定出挖掘效果。
1.2神经网络模型
现阶段,已知的人工神经网络模型有40多种,较为常用的有以下几种:
(1)BP神经网络。BP是误差反向传播的简称,这种神经网络归属于前馈网络的范畴,其具有多层映射的特征,该网络所采用的主要学习方式为最小均差,结构简单、学习训练算法成熟、工作状态稳定是BP模型的3大特点,正因如此使得该模型获得了非常广泛的应用。由于BP算法对误差函数有着一定的要求,即误差函数必须可微,故此,为了有效克服局部极小的问题,多以全局优化算法为主,如遗传算法等。
(2)RBF神经网络。RBF是径向基函数的简称,该网络与BP网络在归属的范畴上相同,也属于前馈网络。RBF网络在激活函数方面有多种可选择,最常用的是高斯函数,因为这种函数具有很多显著的特点,如形式简单、径向对称、容易解析等等。由于RBF网络是一个多层前馈网络,故此只要隐单元足够多,便可达到任意给定精度,其在逼近目标时,采用的化整为零的思想,即将目标分解成为若干个局部对象。
(3)混合型神经网络。这是—种将其它方法有机融合到—起构成的神经网络模型,它与传统网络模型的拓扑结构相同,但学习机制却有所不同。常用的混合型神经网络有模糊和进化2种。
2.基于神经网络的数据挖掘方法
2.1神经网络在数据挖掘中的应用优势
神经网络是一门实用性较强的科学技术,其集多种现代技术于一身,有诸多并行分布的处理单元连接而成。从系统的角度上讲,神经网络归属于动态系统的范畴,具有自适应和非线性的特征,对噪声数据有着非常强的容错和承受能力。由于神经网络所具有的这些特点,使得基于神经网络构建的数据挖掘模型具备了与之相同的特点,这样便可以适应数据环境的不同变化,由此进一步提升了数据挖掘模型的准确性。可见,神经网络十分适用于数据挖掘领域。
2.2基于神经网络的数据挖掘过程
由上文分析可知,在数据挖掘领域中,神经网络具有较高的适用性,以此为基础的数据挖掘过程分为以下几个阶段。
2.2.1数据的选择及预处理阶段
数据选择的主要目的是为神经网络的构建提供相应的数据支撑,这个过程可以细分为以下2个环节:(1)对数据进行训练,(2)对数据进行测试。观察和理解是选择数据时必须做的工作,当样本数据集确定之后,便可按照挖掘目标,并结合挖掘方法,对数据进行编码处理。
2.2.2网络训练与剪枝
当数据选择和处理工作完成之后,数据挖掘人员需要选用一个神经网络模型,同时确定相应的网络训练算法,通过该算法对神经网络进行训练。剪枝的主要作用是以神经网络的准确性为前提,去除掉没有意义和价值的冗余结点由此会使网络模式更加简练,也更容易理解。
2.2.3规则的提取与评估阶段
经过以上2个阶段后,神经网络当中便会蕴含着学习到的规则,也就是常说的知识,但是此时的规则由于存在形式的原因,不容易理解,所以需要对规则进行提取。提取规则的主要目的在于将规则的形式转化为容易理解的形式,如模糊逻辑、决策树等,然后再借助测试样本对规则的可靠性进行测试、评估。
2.3基于RBF神经网络的数据挖掘模型设计
下面本文以RBF神经网络为依托,对数据挖掘模型进行设计,其整体框架结构如图1所示。
整个系统由以下模块构成:数据获取、数据处理、数据分类与评估、控制与干预、GUI人机交互、知识库。系统模块的设计情况如下。
2.3.1数据准备
①数据选择。在数据选择中,让用户利用数据访问接口对数据集进行自行选择,进一步确定数据集类型、数据集名称及数据集处所位置。数据访问接口为对象模型,该模型覆盖了数据访问的各个层面,具体可使用的接口包括ADO,DAO和ODBC三种,本系统采用的数据库访问方案为DAO/ODBC,选择该方案的主要原因是DAO既能够与Microsoft Jet数据库引擎并用,还可借助ODBC Direct选项不与其并用。同时,通过DA0对Jet进行访问更加简单、便捷,并且使用DATE控件和DAO,能够创建出与数据库本身无任何关联性的虚拟代码。②数据清理。该环节的主要目的是将不希望包括在内的观测值筛选掉,操作过程既可借助SQn吾句实现,也可借助相关程序予以实现。③数据合成。该环节是将独立的数据合成数据集,操作过程较为简单,只要规则确定便可利用sQL语句或相关程序来实现。 2.3.2数据挖掘
(1)挖掘方法的选择与管理。该环节在系统中具有重要的作用,与系统的可扩充性和最佳挖掘方法的选择有关。挖掘方法管理可对系统中使用的全部方法所产生的接口信息进行保存,如对文本文件分词方法、Web日志的Session戈0分方法等挖掘方法中产生的特定数据信息予以保存,粗糙集、决策树属于通用的挖掘方法。在对该模块进行设计的过程中,针对分类预测问题,使用了聚类和神经网络以及统计学等方法。选择方法的主要目的是几乎所有的方法都是数据依赖,并没苻一种方法能够在所有的数据上表现良好。因此在方法选择的初始阶段,通过专家的人为干预是有必要的。经过对前人的研究成果进行总结后发现,将多种不同的方法联合运用可大幅度提升运用效果。对于本文构建的数据挖掘系统而言,其核心部分为数据挖掘模块,该模块的设计分为3个方面:①训练模块,以训练RBF网络为主,采用数学模型方法构建网络分类模型;②预测模块,在分类实际数据的基础上,将分类产生的数据结果快速传递到评估模块;③重构模块,该模块地能够确保数据挖掘模型具有—定的可扩展性和自适应能力,按照具体需要对模型进行重新构建。(2)结果显示。该环节以多种形式显示数据挖掘结果,如列表、树、图等是最为常见的显示方式。本文采用了可视化的方法进行数据挖掘结果显示,这样能够使用户对挖掘结果的了解更加直观、具体。(3)结果评估。在评估中,采用数据挖掘评价方式,通过比较分析不同模型下产生的数据挖掘效果,从而得出各类型分析工具的最终结果,再配以相应的标准图标进行直观显示,方便用户利用相关数据信息开展定量评价。在结果评估中,强调获取规则的价值评定,其评价关键点为查看数据挖掘结果与用户期望的符合程度,并对挖掘结果的可靠性和价值性进行评价,将其作为知识库是否纳入规则的重要评判依据。在GUI交互界面上,数据挖掘系统与用户可以进行交互操作。
2.4安全性保障措施
基于RBF神经网络的数据挖掘系统在使用过程中,安全性非常重要,为此,本文提出几点安全性保障措施,以此来确保数据挖掘的安全。
(1)采用登录机制确保数据安全。所谓的登录机制主要是针对客户端的一种安全控制措施。由于用户与服务器端需要通过网络的方式进行数据传输,为了进一步提高数据传输的安全性,可对数据进行加密处理,并将用户挖掘到的数据结果存储在服务器上,由此在不同的计算机上使用客户端均可对之前挖掘到的数据结果进行利用。
(2)设置权限。可以通过用户管理来完成用户的注册、登录以及使用权限管理。当用户需要使用数据挖掘系统进行数据挖掘时,要先进行账号注册,并在使用前通过注册的账号和密码进行登录,从而保证每个用户的数据安全。此外,用户管理能够实现分级管理,赋予不同用户不同的权限,这使安全性获得了进一步提升。
3.结语
综上所述,神经网络因自身所具备的诸多优点,在数据挖掘领域获得了广泛应用。本文通过对前人研究成果的借鉴,提出了基于RBF神经网络的数据挖掘方法,并对数据挖掘系统各主要模块的设计进行了论述。对于一个基于神经网络的数据挖掘系统而言,其不但复杂而且庞大,本次的系统设计仅仅是一个尝试,只实现了系统的基本功能,更多的功能有待进一步开发和完善。