论文部分内容阅读
随着技术的发展和观念的变更,Web已经成为人们获取信息的主要来源之一,承载的信息量以爆炸方式急剧增长,它在带给人们大量信息的同时,也使准确检索所需信息变得困难。给Web赋予语义信息,将Web作为基于知识的资源共享平台,让人们更加方便快捷地获取信息,是Web发展的必然趋势。科学数据共享工程是国家科技创新体系建设的重要内容,也是我国科技发展基础条件大平台的重要组成部分。林业科学数据共享工程作为其中之一,门户网站林业科学数据中心在十多年的建设和运行服务中不断地深化和拓展,影响范围不断扩大,数据量也不断增加。面对如此大量的林业科学数据,如何让使用者更加快速、便捷地查找到所需内容是平台不断探索和追求的目标。针对传统信息检索中存在的问题,本文尝试从语义的角度挖掘隐藏在数据背后的信息和规律,以期为用户提供更高质量的数据服务。语义信息检索是一种在传统信息检索方法的基础上与领域本体知识管理、数据挖掘和自然语言处理相结合的新技术。本文针对基于本体的语义信息检索进行了深入的研究,以林业科学数据本体为基础,提出了基于林业科学数据的语义信息检索模型,并从系统的角度对本体知识模型、文档的语义预处理、语义查询扩展以及语义检索等主要技术方法进行了分析和研究,主要内容和结论如下:(1)以本体的构建理论及技术为指导,构建了林业科学数据本体模型。详细阐述了本体模型中,概念集的选取、核心概念的主要关系和属性及属性之间的关系。为基于林业科学数据本体的语义信息检索提供了重要的基础。(2)对语义Web框架进行研究,描述和分析了林业科学数据本体知识模型的维护、存储、推理及查询方法。经过比较研究发现:本体的TDB持久化存储方案比关系数据库更为高效,实验中,前者存储本体的效率最多优于后者60倍;同样,使用Jena和Pellet推理相结合的方法对林业科学数据本体进行陈述三元组推理比单独使用其中一种的推理方法的效率高10%以上。(3)对文档进行语义预处理研究。经过对现有林业科学数据的分析,构建了领域词典,专业词汇达7万余条,提高了分词的精度;以向量空间表示词汇在文档中的特征权重,从林业科学数据本体中提取了特征概念集,并作为聚类中心,以余弦相似度作为距离函数,使用改进的k-均值模型对文档进行聚类,并对聚类文档的倒排索引方法进行分析。实验表明使用该聚类方法的聚类结果正确率为81.4%。(4)提出了一种语义查询扩展方法。将用户的查询请求分为单关键词、多关键词和疑问句3种情况进行分析处理。单关键词使用改进的语义相似度进行查询扩展;多关键词使用语义推理和语义相似度相结合的查询扩展方法;对于疑问句探索性的提出了基于句法分析和语义推理相结合的查询扩展方法。这些语义查询扩展方法是实现语义信息检索的核心内容。(5)在前文介绍的相关理论和研究的基础之上,利用语义Web框架设计开发了基于林业科学数据的语义信息检索系统,实现了信息的语义查询方式。并且通过实验分析,与传统基于关键词匹配的检索模型进行对比。结果表明,本文构建的语义检索方法无论在查全率还是在查准率上的表现都优于传统的检索方法。语义信息检索的研究不仅具有重要的理论价值,而且还有实际的应用价值。本文围绕林业科学数据中心现有的八大类数据,对林业科学数据的语义检索进行了深入的研究和探索。通过本体理论方面的研究,构建了林业科学数据本体,为实现林业领域知识模型的共享和复用提供了条件。同时探讨了利用本体实现林业科学数据语义检索的一般方法,在上述研究的基础上,结合网络计算技术设计开发了林业科学数据语义检索系统并进行评价,为海量林业科学数据在语义层次上的共享提供了理论基础和技术支撑。同时,语义检索系统的实现为林业科学数据共享提供了一个全新的思路,对其它数据共享平台的相关研究具有借鉴意义。