论文部分内容阅读
随着网络信息的爆炸性增长,人们在网上查询所需信息的难度变得越来越大,搜索引擎的出现在某种程度上缓解了这一矛盾。通用搜索引擎分布在不同领域、不同地方为用户提供服务,在早期设立较多,在当前的应用仍然是最广。虽然它相对容易实现相关检索,但其覆盖面狭窄,检索效率低,随着Web的迅速发展,已显得越来越力不从心了。为了改变这种状况,它们中的一些搜索引擎改变了原来收集综合信息的方式,转为集中收集某一领域的信息,为领域检索用户提供了较为精确的检索结果。如果在某个特定的领域内要得到相对全面、准确的搜索结果,就必须改变传统的搜索方式,面向某个特定领域的垂直搜索技术的研究即是在这一背景下产生的。然而对基于关键词的检索,同一个关键词在不同的领域具有着不同的意义,这也是造成通用引擎数据查准率低的原因,因为通用搜索引擎无法识别领域用户的真实意图。农业领域作为专题领域同样存在很多具有领域意义的一些关键词,如“富士”、“玉米”等,对于领域内检索用户,“富士”对应的是苹果而非富士数码或者富士山之类的数据,“玉米”对应的是农产品而非李宇春玉米基地数据。面向农业领域的垂直搜索技术的研究旨在搜索引擎能够理解领域用户的真实意图,反馈领域用户所需的数据信息。首先,在研究成员通用搜索引擎的选择策略及搜索引擎结果处理方法的基础上构建了元搜索引擎,其次分析了如何利用正则表达式抓取农业领域内网页信息内容,再结合领域分析的方法获取领域特征词完成农业领域网页特征库的构建,最终利用此特征库对元搜索引擎检索结果进行结果处理操作,并反馈最终结果。三部分结合完成农业领域内的垂直技术的研究。研究工作如下:首先,在了解了通用搜索引擎的分类及其关键技术基础之上,重点研究了元搜索引擎的结构原理和实现元搜索引擎过程中用到的关键技术:成员搜索引擎的选择策略和搜索引擎结果处理方法。在成员搜索引擎的选择策略问题上,对比了现有的成员搜索引擎选择方法,并对它们进行了分析、比较和评价,最终归纳设计了适合本文的成员搜索引擎的选择策略。此外,从检索效果来讲,成员搜索引擎反馈的查询结果信息总是希望能够更贴近于最终结果,然而根据成员搜索引擎各自查询机制查询的结果杂乱无章,结果处理操作是元搜索引擎构建的另一个重点,在对不同成员搜索引擎返回结果处理中,介绍了元搜索引擎在结果处理中一些常用的方法,对这些方法进行了比较分析,并提出了合适的搜索引擎结果处理的方法。其次,领域网页特征库的构建是为了对元搜索引擎初次检索结果集进行筛选排序处理的,以此来达到去除非领域相关网页和按照规则重排序的目的,实现查全到查准。因此网页特征库的构建是本文研究的重点。构建领域网页特征库的基础有二:一是在分析领域网站的基础之上,如何利用正则表达式对其信息内容进行抓取及抓取的效率;二是成功抓取网页信息内容后,如何再次利用正则表达式结合领域分析的方法对获取的信息内容加以分析最终完成领域网页特征库的构建。最后,探讨了如何利用领域网页特征库对元搜索引擎初步检索结果进行处理,并将最终结果反馈给领域用户。