基于Web文档理解的倒排全文索引研究与实现

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:wanglei15950225270
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
浩如烟海的互联网信息推动了搜索引擎的普及和应用,同时也促进了搜索引擎技术的蓬勃发展。当今搜索引擎的各项技术日趋成熟,学术界也逐渐将目光从搜索引擎技术本身转移到搜索结果的专业化上来,主题搜索引擎的出现很大程度上提高了检索的查全率和查准率。作为搜索引擎的核心内容——索引技术必然要跟上前进的步伐,不断创新。  在主题搜索引擎全面发展的背景下,本文的研究目标是构建基于Web文档理解的倒排索引系统,用以弥补传统倒排索引对语义相关词关联索引的缺失。本文重点研究倒排全文索引和Web文档理解技术,从索引创建和更新维护方面入手,将两种技术有效地结合,使基于Web文档理解的倒排索引系统更适用于主题搜索引擎。  本文主要开展了以下研究工作:  (1)本文对Web文档理解理论及其方法进行综述,细致研究了PageRank技术、中文分词、向量空间模型和潜在语义分析技术。  (2)本文提出了一种倒排文件的改进结构——相关倒排文件。实验表明,检索系统使用相关倒排文件能够减少检索用时,提高检索效率。  (3)本文对查询相似度计算公式进行了改进。实验表明,利用改进公式计算得出的网页与查询串的相似度值更精确。  (4)本文细致分析倒排索引各项功能的实现过程,给出了倒排索引创建和相关倒排文件的检索算法。  (5)本文设计并构建了基于Web文档理解的倒排索引系统。该系统实现了倒排索引的创建、添加、删除以及相关搜索功能。
其他文献
在社会逐渐步入信息化,信息化技术、信息化设备日渐普及的今天,网络给人们的生活带来了巨大的变化,人们对网络的依赖也愈发严重。在使人们生活、工作更加方便的同时,网络也对人们
本文针对K-means算法容易出现局部最优的缺点,引入了一种改进的种群分类蚁群算法ICACA(Improved Character-base Ant Colony Algorithm)对其进行优化。蚁群算法采用了正反馈
将语音处理技术在计算机辅助语言学习领域的运用近年来越来越广泛。它为非母语的学习者提供了一个可交互辅助学习的平台。本文旨在开发一个客观的英语重音识别系统,来帮助英
离群数据挖掘就是从大量复杂的数据集中发现存在于小部分异常数据中的新颖的、与常规数据模式显著不同的新的数据模式。从数据挖掘的角度来看,在一些应用中,稀有事件往往比常
命名实体识别是信息抽取的子任务,同时也是机器翻译、自动问答等多种自然语言处理技术的基础。由于受中文自身特点的限制,中文命名实体识别一直相当困难。为了促进其它中文自
时空序列是指空间上有相关关系的多个时间序列的集合,实际应用中存在大量的时空序列如:交通流量数据、环境监测数据等。有效地分析时空序列间复杂的空间、时间关系,并在此基础之
随着“后基因组时代”的到来,蛋白质分子对接成为蛋白质组学主要的研究方向。蛋白质分子对接是两个或多个蛋白质分子通过几何匹配和能量匹配相互识别的过程,要求两个分子要充
Petri网的进程是对系统行为描述和分析的有力工具,它可以很清楚地反映出网系统运行中变迁之间的顺序、并发、同步等现象。然而,一个进程只能反映Petri网的一种可能运行情况。
工作流是一类能够完全或者部分自动执行的过程,它根据一系列预先定义的过程规则、文档、信息或任务能够在不同的执行者之间进行传递与执行。工作流系统的大规模应用体现了当
本课题来源于海信研发中心数字多媒体技术国家重点实验室“数字电视系统软件及通用模块软件开发”项目,项目目标是为该企业数字电视机顶盒应用开发提供一个高度可移植的中间