多中文搜索引擎的联合网络爬虫及LUCENCE实现

来源 :安阳师范学院学报 | 被引量 : 0次 | 上传用户：tmac0000000

【摘要】

：

由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的轨迹,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,用户

【作者】

：

赵靖潘志舟梅芳婷程振钱吕见

【机构】

：

安徽科技学院计算机系

【出处】

：

安阳师范学院学报

【发表日期】

：

2012年5期

【关键词】

：

网络爬虫搜索引擎网页正文抽取网页相似度 Web crawlers Search MVC design patterns page similarity

【基金项目】

：

安徽省教育厅优秀青年基金重点项目（2011SQRL117ZD）, 安徽科技学院大学生创新课题基金

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的轨迹,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,用户必须尝试用所有搜索引擎去找出他所要的信息。最坏的是每个引擎互相覆盖,用户会重复发现一条信息。针对现有单个引擎搜索的限制,论文提出了针对多Web源的网络爬虫的实现,将现有搜索引擎上的网页信息进行抽取,过滤、去重、排序,进行信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。

其他文献

有偿立卷好

一、部门立卷存在的问题文书立卷的基本原则是按照文件的自然形成规律，保持文件间的历史联系，便于保管和利用。为此，就须让熟悉机关职能，参与文件材料形成过程，熟悉立卷归档办法的

期刊