论文部分内容阅读
在Internet发展的初始阶段,网络资源比较稀少,信息资源的查找比较容易。随着互联网的迅猛发展,Web中所容纳的信息量呈现指数级增长。面对海量的网络信息资源,如何快速高效地完成用户的搜索需求已成为通用搜索引擎瓶颈问题之一。同时,由于通用搜索引擎庞大的数据量和宽泛的主题,使其越来越无法满足用户对某一专题领域信息进行精确查找的需求。因此,面向专业领域的搜索引擎即垂直搜索引擎便应运而生。 本文首先阐述垂直搜索引擎的概念、发展前景及特点,然后介绍了垂直搜索引擎的相关理论技术。本文所构建系统的数据源来自专利信息较全面的中国知网专利数据库。通过分析开源工具包HttpClient、开源框架Lucene的索引和检索机制,逐步完成计算机应用领域内专利信息网页数据的抓取、专利详细信息的抽取、并基于TFIDF进行