主题型搜索引擎的研究与实现

被引量 : 38次 | 上传用户:limajubo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Tnternet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何满足人们对快速、准确而全面获取信息的要求,已经成为摆在人们面前的一大难题。本文从理论和实践两个方面探讨了网络信息检索技术以及检索技术在搜索引擎系统中的应用,提出了将基于内容和基于链接的搜索技术相结合的思想,设计了一个面向主题的搜索引擎iRobot系统,阐述了它的结构和设计开发原理。 论文共分三个部分。第一部分(第一章)为总论,阐述了网络信息检索发展的现状和搜索引擎发展的不足,指出了主题型搜索引擎的概念和进行研究的必要性。第二部分(第二章)为设计iRobot系统所涉及的关键技术的研究。本文系统阐述了信息检索的原理和搜索引擎技术,并对网络信息索引、本体论、网络挖掘、信息过滤、智能代理、网络信息检索算法做了深入的剖析。第三部分(第三到第七章)为iRobot的具体实现部分,在上述理论分析的基础上给出了iRobot系统的设计思想和原则,分析了iRobot的工作流程,并详细的介绍了iRobot的结构和实现技术。 iRobot系统是一个面向主题的搜索系统,用于为专业人士或机构搜集信息。整个系统的核心分为三个部分:1、初始化部分:系统的初始化部分包括向导程序和待搜索种子站点集合的扩充。iRobot系统种子站点集合的扩充由简单元搜索引擎和超链分析实现,向用户推荐一些与主题相关的待搜索站点,为主题搜索系统的爬行部分提供一个良好的起始运行环境。2、搜索部分:iRobot系统从众多的实时搜索算法中选择了Fish算法作为实现的核心,并对Fish算法做了改进,加入了关键字的上下文分析能力。iRobot系统的搜索部分采用了多线程搜索的技术,提高了搜索速度。3、结果处理部分:iRobot将存到本地的网页进行处理,去除网页中的无关信息,将网页分类存入数据库并最终提交用户,获取用户反馈。 文章的最后总结了iRobot系统的研究和开发经验,并对未来的工作进行了展望。iRobot系统是一个较高效率的网络信息搜索系统,实现了面向主题的实时搜索功能,具有种子站点的自动扩充功能和友好的人机接口。
其他文献
当前,我国司法领域出现一方面法官一直处于超负荷工作状态,身心疲惫,另一方面,社会公众对法院的评价、对司法裁判的认可度并不高的怪象。追根溯源,审判权运行不畅是主要原因
湖南航天磁电有限责任公司是一个年产值近亿元的国有企业,随着公司规模的不断扩大,运行机制的转变,市场竞争的加剧,公司对信息化的需求越来越高,希望通过实施ERP系统,引入先进的现
165例偏头痛患者的TCD分析广西中医学院第一附院刘布谷本文对我院1993年8月以来165例偏头痛患者TCD检查结果分析报告如下。1资料与方法165例中男性50例,女性115例,年龄最小的11岁,最大的60岁。所有病例符合诊断
为探讨我国城市住宅用地扩张演进规律并对其合理利用进行有效调控,该文基于统计年鉴数据,利用空间分析和计量分析方法,分析了我国住宅用地利用总体变化态势,并引入4个测度参
分别论述了纳米技术在生物学和医药学上的应用,以及纳米生物技术与医学结合在诊断技术和治疗技术方面的应用,并列举了一些生物医学上应用的先进的纳米生物技术和纳米生物材料
比较框架式基础和弹簧隔振基础两种基座型式,论证了弹簧隔振基础在西门子5缸长轴系汽轮发电机组中应用的合理性。通过一系列测振试验表明,弹簧隔振基础保障整个结构安全稳定,
介绍了经过改性的常用絮凝剂在鄂西高磷赤铁矿选矿试验中的应用情况,确定了适合该高磷赤铁矿选矿的絮凝剂种类、最佳用量和最佳pH值等条件。絮凝过程中絮凝剂选择性地吸附了
随着信息技术的发展,生产力的提高不仅仅依靠机械化程度的提高,越来越多地加入了信息化技术。建立数字矿山,实现矿山系统信息化管理,快速化反应、科学化决策已成为提高竞争力
本文着重介绍了近期发展起来的铝及铝合金的无熔剂钎焊—真空钎焊技术。阐明了真空钎焊过程的机理,以及铝合金真空钎焊的工艺参数、设备及研究发展方向。
昆曲艺术是人类三大古老的戏剧样式之一,是中国戏曲艺术最完美的表现形式。在现代文明的进程中,它与其它古老的文化样式一样承受着通俗文化的冲击。然而作为当代的知识分子,我们