论文部分内容阅读
互联网的迅速发展导致网上信息飞速增长,使得信息搜索变得非常困难。当前的搜索引擎在查找时仅仅采用机械的关键词匹配来实现,缺乏知识处理能力和理解能力,而且会返回大量无用信息。解决这些问题就要建立智能化的搜索引擎。搜索引擎有多个组成部分,主要有网页采集、网页净化、网页分类、网页聚类、网页信息抽取、索引、语义理解等。本文针对网页采集、网页净化、网页分类这三部分内容,完成了以下工作:(1)介绍了网页采集的基本原理,研究比较了各种面向主题的网络信息采集算法;(2)为了更加有效地获取更多的与主题相关的页面,提出了一种新的网页采集算法—基于Ontology的网页采集算法,该算法首先依据词典建立一个面向主题的Ontology,然后根据Ontology评价链接的相关程度和网页的相关程度,最后根据相关程度制定采集程序的采集策略。试验表明这种基于Ontology的采集算法不但能随时变换主题而且在相关率方面较好;(3)介绍了网页净化基本原理,研究分析了各种网页分块算法以及净化方法;(4)提出了一种新的基于VIPS算法的网页净化方法,该算法首先通过VIPS算法将整个网站内所有的网页进行划分,将划分后的网页块存入数据库中,删除只包含图片的网页块,然后通过判断各个网页块的相似程度统计各个网页块在网站中出现的次数,最后通过网页块出现的次数、网页块中文本的多少、网页块在网页中的位置和链接的数量来衡量各个网页块的重要程度,重要程度较低的即为噪声。并通过一个实例验证了该算法能很好的区分网页中的主题内容和