论文部分内容阅读
随着互联网的飞速发展,网络上的资源呈爆发性增长状态。为了在互联网上检索海量数据,各种通用搜索引擎应运而生。但通用搜索引擎也存在不足,主要表现是它返回的结果并未根据用户的特点和领域进行优化,无法精确检索结构化数据。垂直搜索引擎的出现改变了上述情况,它是搜索引擎的细分和延伸。垂直搜索引擎专注于某一特定领域,将网页中的非结构化数据进行结构化抽取,并将数据进行合并和索引处理,形成结构化的数据,提高精确检索的准确率。当前互联网上有很多二手汽车交易网站,但这些网站比较分散,用户要获取完整精确的二手汽车交易信息比较困难。为了解决以上问题,在剖析了Lucene的相关技术基础上,本论文提出了相应的解决方法及系统架构,设计并实现了“基于Lucene的二手汽车交易信息垂直搜索引擎”。本文完成的主要工作如下:①介绍了本文的选题背景及国内外的研究现状,比较了垂直搜索引擎与通用搜索引擎的异同之处。②研究了搜索引擎的经典算法,包括PageRank算法,HITS算法,给出了Spider抓取任务划分和防止系统“主题漂移”的方案。③对隐藏网页查询接口进行了分析,实现了隐藏网页的抓取。④对多种结构的网站进行了格式划分,按照分类给出了不同格式网站的抓取算法;并基于正则表达式,实现了二手汽车交易信息结构化的抽取;同时还讨论了系统数据进行增量更新的多种机制。⑤对开源全文索引库Lucene进行了研究,对Lucene的倒排序索引方法、索引建立模式、索引存储组织形式、索引的检索机制进行了剖析。⑥研究了经典向量空间模型(VSM),引入了二手汽车交易信息各属性的权值,实现了推荐相似二手汽车交易信息的功能。⑦遵循软件工程的标准方法,对系统进行了需求分析,构建了二手汽车交易信息垂直搜索引擎的系统架构,完成了系统的数据统一和数据库设计。对系统的各功能模块进行了详细设计,并基于Visual Studio 2005开发平台实现了该系统。