论文部分内容阅读
在互联网大数据的背景下,PB级海量数据的检索已经成为研究的热点,而图书检索作为检索的一个分支也备受关注。传统的图书检索系统虽然在一定程度上解决了用户对图书信息的检索需求。但是这种传统的图书检索系统多是基于书名、作者、出版社等关键词的检索,无法对数据和查询需求有精准的理解,导致经常返回大量的冗余信息。如何让机器正确地理解用户的查询意图,提供更准确的查询结果,则成为信息检索领域重要的研究重点。因此本文利用本体技术对图书的精确检索提供一种解决方案,并通过构建基于本体的图书检索系统验证本文提出的方法是行之有效的。 本文的主要工作如下: (1)构建大规模中文图书本体知识库:本文通过抽取多个中文图书站点、涉及多个领域、数以百万册书籍的图书信息构建了中文图书本体知识库。 (2)实现了异构图书本体数据的集成:本文在构建图书本体知识库时,结合数据属性完成实例层的匹配,同时利用机器学习算法和启发式算法完成模式层的匹配,最终实现异构图书本体数据的集成。 (3)提出6个中文查询模板,实现基于本体的图书搜索系统:本文通过分析用户对本文所构建的图书本体知识库的查询,提出6个中文查询模板,并设计了该查询模板到SPARQL查询语句的转换规则,构建基于关键字和受限自然语言查询的中文图书检索系统。