智能垂直搜索引擎的研究与设计

来源 :重庆大学 | 被引量 : 0次 | 上传用户:sxz123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,Web上的信息与资源日益膨胀。面对海量的信息资源,如何更快更好的获取需要的资源成为人们日益关注的问题。通用搜索引擎返回的结果页面中含有大量的“噪声”页面,需要人为的去挑选自己所关注的主题。垂直搜索引擎的出现,为人们提供了更快,更专业,更精准的网络资源的检索服务。垂直搜索引擎是以构筑某一专题领域或学科领域的因特网信息资源库为目标,智能地在互联网上搜集符合设定专题或满足学科需要的信息资源,它只针对某一特定主题,能够提供更集中、更专业的搜索服务。在对垂直搜索引擎的关键技术进行研究的基础上,本文研究并设计了垂直搜索引擎的主题爬行模块、索引模块和检索模块,并最终实现了一个垂直搜索引擎原型系统。主要工作如下:①针对当前垂直搜索引擎面临的一个亟需解决的“主题漂移”问题,本文提出了一种改进型的主题爬行模型。主要包括基于反馈的主题知识库、主题判定模型和链接分析模型。通过不断提炼和反馈主题网页数据库中的主题关键词,丰富和完善主题知识库,使主题知识库具有一定的学习和自适应能力;考虑HTML不同标签的权值,采用改进的向量空间模型算法判定网页的主题相似度,提高主题判定的有效性和准确性;基于Shark算法思想,通过将HTML文档解析为DOM树形结构,同时设置链接上下文阈值,提出一种基于链接上下文的链接主题相似度DOM判定模型,从而更好的来判断URL的主题相似度,指导主题爬行的方向。②在研究全文检索基本原理和倒排索引组织结构的基础上,综合字索引、词索引和主题网页的特征,提出了一种基于主题知识库的混合索引模型,提高了索引建立的效率和准确性;设计了基于混合索引的检索器的工作流程,并结合向量空间模型,对检索结果排序进行了分析和探讨。③最后采用Nutch框架,实现了一个面向“五金”的垂直搜索引擎原型系统。通过对该原型系统进行实验测试,实验结果表明该垂直搜索引擎系统具有较好的查准率,并且具有自适应性,体现了一定的智能,在一定程度上解决了“主题漂移”问题,基本达到了本文的研究目的,同时也为后续的研究提供一定的理论和实验依据。
其他文献
计算机断层成像技术的出现,为医学诊断和治疗带来了深远的影响,为医生快速诊断提供了便利。但是,二维的断层图像提供的信息比较少,而且比较琐碎,不同医生依此做出的诊断方案可能也
无线传感器网络一般是由数目众多的廉价传感器节点组成。这些传感器节点具有感知,计算和无线通信等能力。在许多无线传感器网络应用中,例如环境监测,灾难救援,地理路由等,传
主题搜索引擎是搜索引擎的细分和延伸,为特定领域、特定人群或特定需求提供定向信息和个性化信息检索服务。聚焦爬虫是主题搜索引擎的基础和核心设施,其主要目标是在有限的时间
数字音频由于本身存储空间小、音频质量高、便于操作处理的特性已基本替代模拟音频成为主流音频格式。它在便利我们生活的同时,也作为司法证据对判断是非发挥重要作用。但数
网络信息技术的发展使得面向服务的体系结构SOA(Service-Oriented Architecture)的概念被提了出来。SOA可看作是一种组件模型,它可以将企业中应用程序分散的不同功能单元组织
最近几年,随着网络技术的不断进步,计算机系统遭受的攻击越来越多,网络安全问题变得越来越严重,直接影响国家和个人的利益。入侵检测作为一种新型的网络安全技术,能够在网络
学位
The 3D face modeling based on 2D images is in computer vision area overlapping with computer graphics and machine learning. The main purpose of this research is
互联网上大型规模的内容分发已成为近年来众多研究的焦点。在传统的服务器客户端模式下,当一个存储在服务器端的流行文件被频繁请求时,服务器可能遭受过载。为了减少服务器端
信息爆炸带来了对数据存储及访问速度的空前要求,存储规模越来越大,管理也越来越复杂,同时对存储的可扩展及可靠性也带来了更高的挑战。为了解决这些问题,数据网格应运而生。