基于时间域的信息检索系统的设计与实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户:yuxjmail
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
上世纪90年代,互联网的兴起加速了信息与知识的传播。近年来,随着计算机的普及以及硬件性能的加速提升,以文本方式呈现的信息数据正急速膨胀着。大规模信息检索系统的出现为人们查找所需信息提供了很好的帮助,因此,信息检索的相关技术也一直是研究的焦点。这其中包括:索引的结构与构建算法,索引的压缩与维护,检索模型,查询反馈与扩展,top-k的高性能查询处理算法等。这些技术为信息检索系统的发展提供了坚实的基础。但随着时间的推移,信息一直在不断地积累着,人们对历史数据信息逐渐产生兴趣,这种需求随着数据的积累会逐渐显著,尤其是近年来web2.0的发展,各类社区以及用户blog中的信息不断更新,加速了人们对该领域的研究。目前,已经有一些研究者注意到这一问题,并试图提出一些解决方案。本文综述了信息检索系统的基本原理,详细介绍了文本检索系统的各主要构件的实现细节。提出了动态文本环境中高性能的支持任意时间段检索的索引结构以及查询算法,实现了以高校社区站点为对象检索系统。本文主要工作包括:●本文提出了一种支持高性能时间段查询的索引组织方式;●本文在新的需求环境下,改进了时间段索引中压缩算法;●本文详细分析了各检索模型的主要特征,使用一种简化的模型NRA-Okapi,有效地支持了高性能top-k算法;●本文对以上方法在TREC 2006 Genomics Ad-hoc语料进行了评测●针对社区文本不断演化的特征,本文设计并实现了一个面向高校社区的检索系统。
其他文献
校园"一卡通"在现代大学中的应用非常广泛。其典型应用之一就是教职员工的上下班考勤。在东华大学,教职员工每天上下班基本上都乘坐校车,所以在校车上部署了用于考勤的校园"
建立分布式协作开发环境是实现设计工具之间进行交互与数据共享、提高设计与开发效率的一种重要手段。不同工具所使用或产生的数据往往存储在不同的关系数据库中,为使这些数
JPEG2000是新一代的图像压缩标准,其中离散小波变换和EBCOT是JPEG2000的两个核心算法。由于这两个算法的计算量很大,内存使用量也很大,因此在许多应用系统中需要对算法进行改
本文引出两个必将在资源库建设领域中流行的理念:学习对象和拆分重构,以此作为研究信息技术课程资源开发的切入点和创新之处。学习对象是一种可重用的数字化教学构件,作为面
随着半导体工艺的进步,以及单处理器所碰到的物理极限和功耗等无法逾越的障碍,以多核处理器为代表的先进体系结构已经逐渐成为提高处理器性能的主要途径。多核处理器在一个芯片
近几年来,随着电子通信技术的飞速发展,特别是无线通信技术的迅速普及和半导体芯片技术的不断成熟,短距离无线通信技术已越来越受到大家的重视。蓝牙(Bluetooth)技术以其低成
伴随着互联网信息爆炸式的增长,海量数据不断产生,人们在网络上查找所需文学作品的效率越来越低。并且随着文学在互联网中的高速传播与发展,盗版、侵权、肆意抄袭作品的形势
在这个科学技术高速发展的时代,人们越来越不满足文本作为信息的来源。随着计算机应用领域的发展扩大,图像已经成为人们重要的信息来源方式,也是人类彼此交流、认识和了解物
本文针对陕西移动建立投诉受理中心的业务需求,提出了基于PBX(Private Branch Exchanger)呼叫中心的解决方案,并在Windows平台上实现,同时对其中所涉及到的TAPI技术、CTI技术
为了满足软件工业化生产的需要,缩短应用系统的开发周期,克服传统工作流管理系统重构和复用困难等问题,本文提出了基于关系数据库的轻量级工作流管理系统自动生成的技术方案