【摘 要】
:
基于关键词的信息检索系统首先把原始的文本信息中的关键词建立倒排索引。当用户输入查询关键词后,检索系统把用户输入的关键词从倒排索引库中查询,返回包含关键词的文档。基
论文部分内容阅读
基于关键词的信息检索系统首先把原始的文本信息中的关键词建立倒排索引。当用户输入查询关键词后,检索系统把用户输入的关键词从倒排索引库中查询,返回包含关键词的文档。基于关键词的信息检索系统只是根据关键词匹配,查全率和查准率都比较低。因此,目前基于专业领域的语义检索开始出现,这些语义检索系统是根据领域本体把原始文本信息标注成为RDF数据格式。当用户查询时,检索系统把用户查询的关键词也转换成RDF格式,然后去RDF数据库中匹配。目前RDF数据的存储方式有关系数据库、Sesame、RDFDB和Redland。本论文的主要工作是实现了倒排索引结构,并测试了这种索引结构的检索效率;提出了用B+树结构存储RDF数据,通过实验与关系数据库存储方式和RDF数据文件查找方式进行了比较;实现了一个小型的基于关键词的信息检索系统,构建一个小型的玉米本体,并利用这个本体扩展信息检索系统。通过本论文的工作得出结论:倒排索引结构适合基于关键词的信息检索;B+树格式的RDF数据存储格式的检索效率比文件存储方式件检索效率高,比关系数据库存储格式的检索效率高;利用本体对基于关键词的信息检索系统进行扩展,可以提高信息检索系统的查全率,同时也可以用作导航,指导用户检索。
其他文献
随着社会的进步,嵌入式系统正在悄悄的融入到人们的日常生活中:从多功能手机到MP4娱乐手持设备,从智能家电控制到汽车智能电子控制,生活中的嵌入式系统无处不在。随着嵌入式
视频中运动目标跟踪是计算机视觉领域中最富有挑战性的课题之一,在军事制导、视觉导航、安全监控、智能交通、视频编码、医疗诊断和气象分析等众多领域中有着广阔的研究和应
中文分词是中文信息处理中的一个基础部分,中文信息处理要从三个层面上对中文进行处理:字、词、句。在汉语中,词是最小的语言单位,只有处理好词层面的问题,才能更好地处理句
随着汽车保有量的增长,道路交通事故已成为世界性的问题,汽车被动安全性也成为汽车最首要的性能。汽车被动安全性研究一般有三种方法,即理论计算法、交通事故分析法和试验法,
随着科学技术的不断创新,计算机病毒技术也越来越多样化。为了对抗变幻莫测的计算机病毒,反病毒技术也随之发展起来。目前已经存在多种先进的反病毒技术,如虚拟机技术、启发
人类从当前“以设备为中心”的时代,已经进入了“以服务为中心的时代”。现在,“云”正成为IT业界关注的焦点。Hadoop是Apache开源组织的一个分布式计算开源框架,它受到最先
非刚体运动重建,是计算机视觉领域的热点研究课题。该技术主要研究如何从二维动态视频序列中恢复非刚体对象的三维结构和摄像机运动的相关参数。该技术可以广泛应用于机器人视
P2P是近年来互联网最热门的技术,在VoIP、下载、流媒体、协调计算等领域得到飞速发展,被财富杂志评为影响互联网的四大科技之一。P2P技术体现了互联网最根本的内涵——自由和
支持向量机(Support Vector Machine)是数据挖掘的新方法,也是一种小样本统计工具,它在解决小样本、非线性及高维的模式识别问题上具有其他机器学习方法难以企及的优势。在支
实体间语义关系抽取是信息抽取中的重要环节。目前,在中文语义关系抽取中基于特征向量的机器学习方法占重要地位,它的研究重点在于如何获取各种有效的词法、语法和实体等特征