论文部分内容阅读
WEB文本挖掘是WEB数据挖掘的一个研究方向,WEB文本挖掘过程中最重要的是如何对文档内容进行有效分类,文本分类精度越高,WEB查询结果就越接近于理想的要求,在实际的应用中越能够让使用者满意,所以如何设计一个高效的文本分类算法至关重要。在众多的分类算法里,BP神经网络算法因其:可以把一组样本的I/O问题变为一个非线性问题;实现I/O非线性映射;全局逼近网络;泛化能力等特点而被广泛应用。本文对WEB数据挖掘的发展和应用作了介绍,讨论了WEB数据挖掘的相关内容,并对使用的算法进行了概述,在前人工作的基础上,对WEB内容挖掘过程中涉及到的WEB文档分类的相关算法进行了讨论,着重对BP神经网络算法进行了深入的探讨,并在此基础上给出了自己的BP神经网络改进算法,将此算法应用在多子网并联拓扑结构上对WEB文档内容进行分类,实验结果表明改进算法的性能有了明显改善。论文具体的研究内容包括以下几方面:⑴介绍了论文的研究背景及意义,对数据挖掘的概念、数据挖掘的分类、使用的挖掘算法、数据挖掘的过程等进行了详细的阐述。⑵着重对WEB数据挖掘的内容,WEB数据挖掘的分类,WEB数据挖掘的过程进行了阐述,尤其对WEB内容挖掘的挖掘内容、挖掘过程、相关算法进行了详细的阐述。在WEB内容挖掘过程中,对文档内容进行分类非常重要。⑶论文对神经网络算法的内容、原理进行了阐述,尤其对BP神经网络算法详细阐述了其概念、原理、拓扑结构及优缺点等,针对其收敛率不高和误差偏大等特点,对算法进行了改进,提出了BP神经网络改进算法,提高了算法的收敛率并降低了误差。⑷多子网并联神经网络算法是通过优化普通三层BP神经网络算法的拓扑结构,从而提高BP神经网络算法性能的一种方法。本文把改进的BP神经网络算法和多子网并联拓扑结构结合使用,使得算法的分类能力有了更大的改进。实验结果表明使用多子网并联结构的BP改进算法进行WEB文档分类可行,且性能有了较大的提高。