【摘 要】
:
由于Web上海量的信息处于不断的变化中,通用搜索引擎已经很难再为用户提供一个准确并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web并且试图服务于所有主题的查询请
论文部分内容阅读
由于Web上海量的信息处于不断的变化中,通用搜索引擎已经很难再为用户提供一个准确并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web并且试图服务于所有主题的查询请求。而主题搜索引擎只覆盖与特定主题相关的Web区域,这样它搜索的可以更深,搜索的周期可以更短,因此能满足用户对获取信息资源快速、准确的性能要求。面向主题的搜索研究正成为越来越热门的课题。本文首先对搜索引擎的历史、分类、发展现状及其趋势做了概要介绍;然后以搜索引擎的体系结构、工作原理为主线在全文展开我们的研究工作。我们分别对爬虫技术、HTML解析技术、分词技术做了详细的分析与研究。对页面链接、页面分布的特征也做了分析。本文设计和实现了一个页面主题相关性判定系统。它的系统结构植根于开源软件Nutch,在健壮性与简单易用性上得到了保证。其核心思想是:把关键词加权和页面进行主题相关性判定。其中运用到了向量空间模型与关键词集技术。本文还提出了一个较为新颖的概念:关键词和页面间的Ω—距离。形象的说就好象网络信息交互中的“电阻”将关键词所表达的真实意图和与之匹配的页面生硬的隔离开了或者说拉远了,这个概念在主题搜索领域具有独特的实用价值,可以有效地提高信息搜索匹配的智能化程度,但是在实现方面还有待进一步的突破。本文在面向主题的搜索引擎方面进行了一些有意义的研究和尝试,并为该领域进一步的研究工作打下了基础。
其他文献
CUDA编程模型的引入大大地推动了GPGPU在通用计算领域的发展,异构CPU和GPU协同工作,在程序运行过程中,两者存在着大量的数据交互。为了提高双方的数据交换的效率,早期的研究者们
无线传感器网络已经广泛应用于环境监测、目标追踪、地理路由等领域。大量低成本、多功能、微小体积的无线传感器网络节点可以布置在一定的区域形成一个大规模的、动态拓扑结
电力系统规模逐渐增大,数据量提升,而当前的计算技术缺乏关于数据整体特征的描述,无法根据现有的数据准确充分做出决策。将计算机领域的数据挖掘技术应用于电力系统的暂态稳定评估领域,研究大数据量处理前提下的电力系统计算方法,对于提高电力系统计算水平将有巨大帮助。电力系统暂态稳定评估存在两个主要问题:一是参与分析评估的训练集不足以覆盖整个样本空间,所选特征变量不能全面、正确地描述电力系统的运行状态,导致分类
随着多媒体技术和互联网技术的飞速发展,数字告示系统以其灵活高效、多区域、多元素和实时播放等特点得到越来越广泛的应用,同时也获得了人们的一致好评,被誉为“第五媒体”。但
无线传感器网络(WSN)的MAC协议处于网络协议的底层部分,它决定无线信道的使用方式,对无线传感器网络的性能有极大影响,是保证无线传感器网络高效通信的关键网络协议之一。传
三维地形场景视景仿真技术是近年来在虚拟现实领域中一项重要的技术,它以三维地形网格为主,结合多媒体、立体视觉、传感技术创造出一个身临其境的虚拟世界。三维地形技术是视
目前移动商务发展迅速,但是图形化应用是移动商务面临的一个的问题。虽然移动终端市场对J2ME的支持较为普遍,但是网络传输能力较弱,即使3G网络会提高网络传输速度,移动终端更
随着无线网络与可移动设备的发展,移动计算正逐步成为分布式计算的主流,移动计算使得人们在保持网络连接的同时能够自由移动,这促进了许多新的分布式应用的出现。但是移动计
随着我国信息化进程的深入和电子政务的建设,大量的社会和经济信息已经电子化。而由于国际政治经济的交流和发展,如何向世界范围内发布这些相关的信息成为一个现实需求。近年
自然界中生物体优胜劣汰,不断由低级向高级进化。人们通过观察这些适者生存的法则构成了一些优化算法。优化算法的本质是在众多解中寻找到一个最优的解,使得系统在满足一定约