论文部分内容阅读
随着计算机和网络技术的发展,工具书由纸质载体逐渐向电子版本的方式发展,商务印书馆拥有一百多年的历史,是国内首屈一指的出版和文化机构,至今出版各类书刊近5万种,其中包括大量权威的工具书辞书资源。“在线工具书”平台就是在商务印书馆丰富的工具书资源的基础上,结合计算机技术、互联网技术的工具书的新的出版方式。它以互联网为载体,以权威、专业、高质量的工具书为基础,打造一个集文字、图像、声音、动画、视频为一体的全方位、立体化的多媒体数字出版平台,旨在为互联网用户提供一批权威的工具书资源,向全球互联网用户提供各种工具书的检索服务,并将努力成为中国最大的、最权威的、最专业的在线工具书搜索引擎。
有鉴于此,在工具书网络出版平台加工的数据基础上,设计开发了针对在线工具书的垂直搜索平台------“在线工具书”平台。
“在线工具书”平台以检索为核心功能,整个检索模块采用软件分层架构思想,将检索业务划分为底层的数据访问与索引、中间层的业务逻辑调度以及表现层的结果前端展示,逐步形成了一个具备专业性,通用性和可扩展性的检索系统。
为了更好的支持工具书不断的数据更新及检索服务,在线工具书检索模块根据实现检索的逻辑功能划分成五个主要部分:用户界面接口、搜索逻辑控制、底层基本搜索、创建倒排索引、数据访问接口,另外还包括检索相关的数据准备工作(导入、更新)及权限控制和缓存部分。
本文就针对整个检索模块,按照检索的业务流程详细介绍了各个功能子模块,从工具书相关数据的获取与存储开始,接着介绍提取数据中相关字段并创建倒排索引,然后读取索引来构造查询数据结构以实现基本搜索的过程,其中搜索逻辑控制则负责对请求的调度与搜索结果的过滤、排序,用户界面接口主要完成工具书最终结果的生成。
最后还抽样部分数据对检索模块的性能指标进行测试,实践证明我们的检索模块的实现是成功有效的,超出了预期目标。“在线工具书”平台上线后,也得到了相关部门及社会的认可,并获得多个奖项,有力的促进了工具书在线平台的后续发展及整个数字出版行业的发展。