论文部分内容阅读
随着网络信息资源呈几何级数增长,使用传统搜索引擎技术进行准确、快速、深入地查找所需信息变得越来越困难。针对通用搜索引擎存在的这些缺点,新一代搜索技术--垂直搜索引擎应运而生。
垂直搜索引擎是针对某一个行业的专业搜索引擎;是搜索引擎的细分和延伸;是针对性的为某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息检索服务。它为用户提供的并不是上百甚至上千万相关网页,而是范围极为缩小、极具针对性的具体信息。论文主要内容:
首先,介绍了论文研究的背景和意义以及垂直搜索引擎在国内外的发展情况;
其次,介绍了垂直搜索引擎的关键技术,并做了一些创新工作;
1.web四层结构模型的建立。由此设计了以路径检索方式爬虫的主题爬虫器。
2.基于包装器和网页特征相结合的信息抽取方法的提出。首先用包装器把主题内容块抽取,接着根据源网页特征,实现主题块的完整抽取。
3.专业词典的设计与实现。通过学习中文分词技术,设计并实现了一个面向笔记本电脑驱动的专业词典。
4.URL采集系统的设计与实现。利用它找到驱动下载的大型门户网站。
5.建立以下载次数升降的排序算法,实现对搜索结果列表中的关键字进行描红的技术。
最后,本文设计了各个子系统,并实现了面向笔记本电脑驱动下载的垂直搜索引擎的原型系统。通过测试比较本搜索引擎与通用搜索引擎的搜索结果,验证了本垂直搜索引擎相对通用搜索引擎的有效性。