多中文搜索引擎的联合网络爬虫及LUCENCE实现

来源 :安阳师范学院学报 | 被引量 : 0次 | 上传用户:tmac0000000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的轨迹,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,用户必须尝试用所有搜索引擎去找出他所要的信息。最坏的是每个引擎互相覆盖,用户会重复发现一条信息。针对现有单个引擎搜索的限制,论文提出了针对多Web源的网络爬虫的实现,将现有搜索引擎上的网页信息进行抽取,过滤、去重、排序,进行信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。
其他文献
一、部门立卷存在的问题文书立卷的基本原则是按照文件的自然形成规律,保持文件间的历史联系,便于保管和利用。为此,就须让熟悉机关职能,参与文件材料形成过程,熟悉立卷归档办法的
期刊
文书立卷的方法经几代档案工作者的探索,基本形成了以年代———组织机构和年代———问题分类法,并广泛推行。但关于文书立卷方法改革的探讨却从没有停止过,不断有档案工作者关
目前,我国的教育事业发展十分迅速,其中高等院校学生占据较大比例。调查表明,在教学活动中,大多数高等院校的思想政治课的教学内容、教学方式以及考核方法都不受学生欢迎,导致学生
期刊
不求甚解.好还是不好?嘿嘿.这可叫我怎么说呢?“不求甚解”语见陶渊明《五柳先生传》:“好读书不求甚解.每有会意,便欣然忘食。”