垂直搜索引擎及其关键方法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:cxy153
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,Web己经发展成为包含多种信息资源、站点分布全球的海量信息服务网络。搜索引擎正是一种帮助用户从信息海洋中找到用户所需要信息的工具。一些通用的搜索引擎力争索引Web中所有的网页,为用户提供各种各样的服务。但由于信息多元化的发展,通用的搜索引擎无法满足专业化用户的需求,因而迫切需要一个数据分类细致、精确、全面、更新及时的面向特定主题的搜索技术和方法来获得相关主题资源。在这种需求的推动下,垂直搜索引擎便应用而生了。首先,根据通用搜索引擎和垂直搜索引擎的区别并且结合垂直搜索引擎专、精、深的特点,引入了主题判断模块、信息抽取模块及聚类模块,进而提出了一种垂直搜索引擎框架。其次,根据垂直搜索引擎专业网络爬虫的核心,即专业的爬行算法。对基于PageRank的Best-First算法进行了广泛而深入的研究。第一,针对PagRank是一种根据网页之间的超链接来计算网页排名的技术,网页的PageRank值越高,该网页越重要。第二,由于PageRank算法不利于搜集主题信息等问题,提出了一种改进的PageRank算法。第三,从单个网页考虑,利用每个网页的url,title,正文,提出了基于内容相似度的方法。第四,结合改进的PageRank算法和基于内容的相似度提出了BLCT主题爬行算法并进行了相应的实验。最后,深入研究了文本聚类技术,通过搜索结果的聚类可以缩小用户所需浏览的结果数量,从而缩短用户查询所需要的时间。针对k-means聚类算法只能保证收敛到局部最优,导致聚类结果对初始聚类中心敏感的问题,提出了一种基于相似中心的k-cmeans文本聚类算法。通过一定的策略选择初始中心点,并进行了相应的实验。
其他文献
红外遥感利用物体的热辐射特性实现对目标的探测,被广泛应用于资源调查、环境监测、工农业生产及国防等各个领域。   红外成像系统的辐射定标是获取目标红外辐射特性的基
学位
零售信息化是加强油站经营管理的强有力手段。前庭设备控制系统是站级油品零售系统的核心,该系统负责前庭设备管理和控制、IFSF协议转换、油品数据管理、前庭信息配置等功能,
Ad Hoe网络,也被称为无线分组网络,是由若干带有无线收发装置的移动或固定节点所组成的多跳、没有中心节点的临时性自治网络系统。由于上述这些特性,它可以在许多特殊环境下(例如
过去十多年来越来越多的证据表明,静息态功能磁共振成像的研究数量处于稳步上升中。静息态与人脑内在的固有的自发活动有关,很可能反映人脑功能的基线状态。大脑的多个大规模
工作流技术是20世纪90年代发展起来的一项关于企业经营过程管理的技术,它的出现给企业带来了巨大的利益,例如:降低管理成本;提高企业工作效率:增强企业自我水平等。工作流技
密码技术是实现网络信息安全的核心,除了用于信息加密外,也用于数据信息签名与安全认证,是保护信息安全的最重要工具之一。随着计算机科学技术的发展,网络和信息技术已经渗透到社
学位
随着信息技术不断深入应用到金融、交通、军事、网络监测等领域,面向数据流的应用已经无处不在。而近年来互联网的广泛应用,海量的数据得以涌现。不同于传统的数据流只是一些
歌曲情感识别是音乐信息检索领域中的重要问题之一,本文主要研究并实现了两种歌曲情感识别方法。与已有研究工作不同,本文利用歌词文本信息,分析得到歌曲的情感。   本文
当前,Java系统以其良好的网络移动性、广泛的跨平台能力以及快速开发、快速部署的优势越来越受到开发者的欢迎。其应用领域从最初的服务器和桌面领域扩展到了实时和嵌入式领
近年来,傅立叶变换红外光谱仪(简称FTIR光谱仪)已得到广泛应用,专用的傅立叶变换红外光谱仪一般配备专用的光谱信号实时处理系统,以实现红外光谱信号的实时处理与分析。为了
学位