论文部分内容阅读
随着科学技术的飞速发展,我们已经进入了数字信息化时代。Internet作为当今世界上最大的信息库,也成为人们获取信息的最主要手段。由于网络上的信息资源有着海量、动态、异构、半结构化等特点,且缺乏统一的组织和管理,所以如何快速、准确地从海量的信息资源中寻找到自己所需的信息已经成为网络用户需要迫切解决的一大难题。因而基于Web的网络信息的采集与分类便成为人们研究的热点。传统的Web信息采集的目标就是尽可能多地采集信息页面,甚至是整个Web上的资源,在这一过程中它并不太在意采集的顺序和被采集页面的相关主题。这就使得所采集页面的内容过于杂乱,其中有相当大的一部分利用率很低,大大消耗了系统资源和网络资源。这就需要采用有效的采集方法以减少采集网页的杂乱、重复等情况的发生。同时如何有效地对采集到的网页实现自动分类,以创建更为有效、快捷的搜索引擎也是非常必要的。网页分类是组织和管理信息的有效手段,它可以在较大程度上解决信息杂乱无章的现象,并方便用户准确地定位所需要的信息。传统的操作模式是对其人工分类后进行组织和管理。随着Internet上各种信息的迅猛增加,仅靠人工的方式来处理是不切实际的。因此,网页自动分类是一项具有较大实用价值的方法,也是组织和管理数据的有效手段。这也是本文研究的一个重要内容。本文首先介绍了课题背景、研究目的和国内外的研究现状,阐述了网页采集和网页分类的相关理论、主要技术和算法,包括网页爬虫技术、网页去重技术、信息抽取技术、中文分词技术、特征提取技术、网页分类技术等。在综合比较了几种典型的算法之后,本文选取了主题爬虫的方法和分类方面表现出色的KNN方法,同时结合去重、分词和特征提取等相关技术的配合,并对中文网页的结构和特点进行了分析后,提出中文网页采集和分类的设计与实现方法,最后通过程序设计语言来实现,在本文最后对系统进行了测试。测试结果达到了系统设计的要求,应用效果显著。