在线工具书检索模块的实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:a3799222999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络技术的发展,工具书由纸质载体逐渐向电子版本的方式发展,商务印书馆拥有一百多年的历史,是国内首屈一指的出版和文化机构,至今出版各类书刊近5万种,其中包括大量权威的工具书辞书资源。“在线工具书”平台就是在商务印书馆丰富的工具书资源的基础上,结合计算机技术、互联网技术的工具书的新的出版方式。它以互联网为载体,以权威、专业、高质量的工具书为基础,打造一个集文字、图像、声音、动画、视频为一体的全方位、立体化的多媒体数字出版平台,旨在为互联网用户提供一批权威的工具书资源,向全球互联网用户提供各种工具书的检索服务,并将努力成为中国最大的、最权威的、最专业的在线工具书搜索引擎。   有鉴于此,在工具书网络出版平台加工的数据基础上,设计开发了针对在线工具书的垂直搜索平台------“在线工具书”平台。   “在线工具书”平台以检索为核心功能,整个检索模块采用软件分层架构思想,将检索业务划分为底层的数据访问与索引、中间层的业务逻辑调度以及表现层的结果前端展示,逐步形成了一个具备专业性,通用性和可扩展性的检索系统。   为了更好的支持工具书不断的数据更新及检索服务,在线工具书检索模块根据实现检索的逻辑功能划分成五个主要部分:用户界面接口、搜索逻辑控制、底层基本搜索、创建倒排索引、数据访问接口,另外还包括检索相关的数据准备工作(导入、更新)及权限控制和缓存部分。   本文就针对整个检索模块,按照检索的业务流程详细介绍了各个功能子模块,从工具书相关数据的获取与存储开始,接着介绍提取数据中相关字段并创建倒排索引,然后读取索引来构造查询数据结构以实现基本搜索的过程,其中搜索逻辑控制则负责对请求的调度与搜索结果的过滤、排序,用户界面接口主要完成工具书最终结果的生成。   最后还抽样部分数据对检索模块的性能指标进行测试,实践证明我们的检索模块的实现是成功有效的,超出了预期目标。“在线工具书”平台上线后,也得到了相关部门及社会的认可,并获得多个奖项,有力的促进了工具书在线平台的后续发展及整个数字出版行业的发展。  
其他文献
火星作为太阳系内最类似于地球、最有可能存在生命的行星,吸引着诸多国家和机构的注意力。目前,我国的火星探测工程已经列上日程。地火转移轨道的设计是火星探测的先导,降低探测
学位
软件国际化是指,在设计软件时将软件与特定语言与地区脱离的过程。它对于开发者来说是一个有挑战性的任务,特别是在软件当初设计时没有考虑这个问题的时候。在软件国际化过程
大学堂是一个分布式的教学视频共享系统,具有高可靠性,可扩展性。本文基于大学堂的实际应用需求-在服务器间传输大的视频文件,提出了一种基于多路径与并行TCP的数据传输技术,
数据挖掘技术是近年来数据库和人工智能等领域研究的热点课题,它引起了科学界和产业界的广泛关注。关联规则挖掘作为数据挖掘领域的一个重要研究分支,它的任务是发现所有满足支
学位
近年来,随着Web规模的不断扩大,Web中蕴含了越来越丰富的信息。随着搜索引擎的出现以及商业搜索引擎功能的日益增强,人们越来越多的利用搜索引擎来寻找和挖掘Web中蕴含的知识
目前,随着搜索引擎使用人群不断增长,其商业价值也日益突显出来,同时作为搜索引擎本身,也需要有一定的盈利模式来支撑它的发展。此时,竞价排名应运而生,现已成为搜索引擎最主要的收
随着硬件技术和移动网络技术的快速发展,以智能手机为代表的嵌入式系统的硬件性能越来越强,软件应用越来越丰富,使得嵌入式设备在性能和功能上越来越接近微型个人电脑。性能
随着互联网基础设施和各种互联网应用的快速发展,多媒体内容如音乐、影视、图片等已经占据了互联网绝大部分的流量。在文字搜索的领域,传统的搜索如Google,百度都已经有很成
随着计算机网络的飞速发展和信息化的推进,数据集成技术得到了越来越广泛而深入的应用,也引起了学术界和工业界的高度重视。XML由于其半结构化等特性使其能够集成来自不同数
随着数据库管理系统应用环境的不断变化,一方面,数据管理、数据访问等相关技术变得越来越复杂;而另一方面,维护成本变得越来越昂贵。于是,企业为了更好地专注于所擅长的业务领域,会