基于林业科学数据的语义检索研究

来源 :中国林业科学研究院 | 被引量 : 7次 | 上传用户:zxy6651
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着技术的发展和观念的变更,Web已经成为人们获取信息的主要来源之一,承载的信息量以爆炸方式急剧增长,它在带给人们大量信息的同时,也使准确检索所需信息变得困难。给Web赋予语义信息,将Web作为基于知识的资源共享平台,让人们更加方便快捷地获取信息,是Web发展的必然趋势。科学数据共享工程是国家科技创新体系建设的重要内容,也是我国科技发展基础条件大平台的重要组成部分。林业科学数据共享工程作为其中之一,门户网站林业科学数据中心在十多年的建设和运行服务中不断地深化和拓展,影响范围不断扩大,数据量也不断增加。面对如此大量的林业科学数据,如何让使用者更加快速、便捷地查找到所需内容是平台不断探索和追求的目标。针对传统信息检索中存在的问题,本文尝试从语义的角度挖掘隐藏在数据背后的信息和规律,以期为用户提供更高质量的数据服务。语义信息检索是一种在传统信息检索方法的基础上与领域本体知识管理、数据挖掘和自然语言处理相结合的新技术。本文针对基于本体的语义信息检索进行了深入的研究,以林业科学数据本体为基础,提出了基于林业科学数据的语义信息检索模型,并从系统的角度对本体知识模型、文档的语义预处理、语义查询扩展以及语义检索等主要技术方法进行了分析和研究,主要内容和结论如下:(1)以本体的构建理论及技术为指导,构建了林业科学数据本体模型。详细阐述了本体模型中,概念集的选取、核心概念的主要关系和属性及属性之间的关系。为基于林业科学数据本体的语义信息检索提供了重要的基础。(2)对语义Web框架进行研究,描述和分析了林业科学数据本体知识模型的维护、存储、推理及查询方法。经过比较研究发现:本体的TDB持久化存储方案比关系数据库更为高效,实验中,前者存储本体的效率最多优于后者60倍;同样,使用Jena和Pellet推理相结合的方法对林业科学数据本体进行陈述三元组推理比单独使用其中一种的推理方法的效率高10%以上。(3)对文档进行语义预处理研究。经过对现有林业科学数据的分析,构建了领域词典,专业词汇达7万余条,提高了分词的精度;以向量空间表示词汇在文档中的特征权重,从林业科学数据本体中提取了特征概念集,并作为聚类中心,以余弦相似度作为距离函数,使用改进的k-均值模型对文档进行聚类,并对聚类文档的倒排索引方法进行分析。实验表明使用该聚类方法的聚类结果正确率为81.4%。(4)提出了一种语义查询扩展方法。将用户的查询请求分为单关键词、多关键词和疑问句3种情况进行分析处理。单关键词使用改进的语义相似度进行查询扩展;多关键词使用语义推理和语义相似度相结合的查询扩展方法;对于疑问句探索性的提出了基于句法分析和语义推理相结合的查询扩展方法。这些语义查询扩展方法是实现语义信息检索的核心内容。(5)在前文介绍的相关理论和研究的基础之上,利用语义Web框架设计开发了基于林业科学数据的语义信息检索系统,实现了信息的语义查询方式。并且通过实验分析,与传统基于关键词匹配的检索模型进行对比。结果表明,本文构建的语义检索方法无论在查全率还是在查准率上的表现都优于传统的检索方法。语义信息检索的研究不仅具有重要的理论价值,而且还有实际的应用价值。本文围绕林业科学数据中心现有的八大类数据,对林业科学数据的语义检索进行了深入的研究和探索。通过本体理论方面的研究,构建了林业科学数据本体,为实现林业领域知识模型的共享和复用提供了条件。同时探讨了利用本体实现林业科学数据语义检索的一般方法,在上述研究的基础上,结合网络计算技术设计开发了林业科学数据语义检索系统并进行评价,为海量林业科学数据在语义层次上的共享提供了理论基础和技术支撑。同时,语义检索系统的实现为林业科学数据共享提供了一个全新的思路,对其它数据共享平台的相关研究具有借鉴意义。
其他文献
IVECO“S”系列车变速器中间的轴齿轮为六联齿轮(如图)。材料为19CN5。其加工过程为:毛坯回火——齿坯加工——齿形加工(滚齿,插齿,倒角,剃齿)——热处理——矫直——磨轴颈
The iodine-catalyzed nucleophilic addition of pyrrole to acetone has been studied by density functional theory at the level of Lanl2DZ. It has been shown that t
身为财务人员,要经常与钱打交道。面对金钱,你是贪婪还是克制?不妨来测一测。若你参加一场宴会.当服务生端着果汁给你,而托盘里的杯子有着不同分量的果汁.你会选择哪一杯?
Geometrical optimization and electrostatic potential calculations have been per- formed for a series of halogenated hydrocarbons at the HF/ Gen-6d level. A numb
光伏发电机组容量在电力系统中的比重日益增大,预测光伏出力对电力系统调度具有极其重要的意义。因为影响光伏发电系统的许多因素随机性较高,使得预测工作难度加大。传统的预测方法对数据的依赖性较强,数据的完整性对预测过程影响很大,因此需要更严谨、便捷的方法使光伏功率的预测工作更加准确、实用。通过对光电站历史数据的探索性分析,对比多种回归预测模型,对影响功率的因素建立神经网络与非线性拟合的组合预测模型。仿真结
为解决多旋翼无人机姿态解算由于量测野值存在导致传统算法性能下降问题,充分考虑野值所导致的非高斯噪声分布特性,针对多旋翼无人机姿态解算模型,将量测噪声协方差矩阵近似为逆威沙特(Inverse-Wishart IW)分布,提出一种鲁棒的多旋翼姿态解算方法(Robust Attitude Measurement algorithm,RAMA)。基于加速度计、陀螺仪、磁力计相关数据,针对噪声存在野值的场景
从烯烃羰基化催化剂废液中回收铑,是采用减压蒸馏、蒸发和灰化的方法对金属铑进行回收,特别对于低浓度铑废液中铑的回收效果较为理想,而且设备简单、操作容易,铑的回收率较高。
本文所述内容是在国家重大基础规划项目课题(2002CB111502)、国家自然科学基金重点项目(39930130)及高等学校博士学科点专项科研基金(2000002009)的资助下完成的。主要针对研
起动机是汽车起动系统的关键部件之一,而电磁场是起动机能正常运转的重要条件。现给出了汽车起动机电磁场的有限元计算方法,通过采用Ansoft构建起动机整体剖分模型,设置仿真边界条件后绘制有限元网格,计算得到了起动机内部稳态电磁场分布情况,结果表明该起动机有限元分析模型的合理性。最后,通过试验的方法获得起动机磁场的实测数据,经误差分析验证了起动机电磁场仿真结果的真实可靠性,为今后进一步优化设计起动机结构