论文部分内容阅读
由于INTERNET和数字化技术的不断发展,INTERNET上所包含的信息也在飞速的增加,INTERNET已经成为包含各种信息形式,如文本、图像,音频等多媒体的巨大的信息资源库。而WEB图像信息的利用也越来越受到人们的关注,因此WEB图像信息资源的有效利用也是目前急需要解决的问题,因为这不但可以高效的帮助网络用户找到它们所需要的信息,而且还可以帮助解决INTERNET上图像噪音的过滤问题。然而由于WEB图像从主题、格式、到功能和来源是不同的,所以很难用一个统一的标准对其进行分类,并进行有效的检索。因此,目前对WEB图像的分类研究主要是针对某一范围进行的,当然这也限制了对WEB图像的有效利用。本研究的目的是建立一个高效的WEB图像分类器,实现对INTERNET上WEB图像的高速有效分类。采用的分类算法是数据挖掘算法中的神经网络分类算法,并对其进行了一定的优化,采用了弹性BP算法。由于从HTML文件中得到的属性值存在缺失的情况,而这正好可以利用神经网络算法的特点,因为神经网络具有很强的鲁棒性和容错性。实验通过训练集建立神经网络,再用此神经网络来对测试集里的图像进行分类。实验结果表明该WEB图像分类器经过不断的重复训练,具有很强的自适应性,能够以较高的准确率对任意WEB图像进行分类。第一章绪论部分扼要地阐述了本课题研究的背景和意义,以及研究的目的。第二章介绍了图像分类的方法及其所运用的相关算法,使读者对WEB图像分类有大概的了解。第三章主要介绍了本研究的总体设计和研究方案。第四章主要介绍了用于获取实验数据的信息采集模型。第五章重点介绍了用于实验的神经网络算法的概述,原理等等。第六章详细介绍了用于实验的神经网络模型的设计与优化,并且给出了实验的相关数据与结果。第七章根据实验结果对此研究做了一个综合的评价,并对未来研究作出展望。实验系统的开发环境是Windows XP,开发平台是Visual C++和MS SOL Server2000。