基于概念语义空间的语义查询扩展技术研究

来源 :河南科技大学 | 被引量 : 0次 | 上传用户:ck101newguy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展及社会信息化的发展,信息呈爆炸式增长,人们对信息获取的要求越来越高,不断推动信息检索技术的发展。当前主流商用搜索引擎仍然采用基于关键词查找的方式。这种查找方式在给用户提供一种简便查询平台的同时,也给人们返回了大量与查询意愿无关的垃圾结果。因此,有学者提出使用查询扩展的方法来解决这个问题。查询扩展是在原查询词的基础上加入相似或相关的词以克服自然语言的“二义性”问题,改进查询意愿的描述。传统的查询扩展技术虽然在技术上有不断的改进,但是仍然以单个查询词为中心进行扩展,忽略了查询概念语义之间的关联扩展,因而没有充分表达和扩展出用户查询意图。近年来,语义概念查询扩展成为新的热点,就是在语义词典/领域本体的基础上构建概念语义空间,从概念语义空间中提取查询语义及其语义关联,实现语义概念扩展。这种扩展在一定意义上实现了语义层次的扩展,但过于依赖完备的语义体系,导致许多与用户查询意愿不相关的词的加入,从而容易出现查询漂移的问题。针对现有查询扩展存在扩展词质量不高的问题,本课题在前人研究成果的基础上,利用语义词典和文档集两种扩展源,在语义空间的基础上引入统计模型对查询词进行扩展。本文的研究工作主要包括以下几个方面:1.语义词典、领域本体等知识体系已经成为智能化信息检索不可或缺的支撑工具。在传统构建语义森林的基础上,提出了向上溯源查找最近公共祖先结点的方法,构建出覆盖面全、冗余度低,结构合理的概念语义空间;2.在对查询扩展进行范围控制的过程中,本课题提出了动态观察窗口加权模型,用于强化共现词之间的关联度。在大规模文档集中使用动态观察窗口加权模型对初始查询扩展词进行训练,动态设定显著性阈值,筛选出最终的查询扩展词;3.最后,本课题利用文本检索会议TREC(Text REtrieval Conference)提供的测试数据集设计并实现了实验系统,将实验结果转化为相应的算法测评指标MRR(平均倒数排名),通过对比可得,本课题提出的结合概念语义空间与动态观察窗口加权模型的扩展算法比传统伪相关反馈法的扩展效果有了较大的提高,从而提高了信息检索质量。本课题实验数据使用TREC(2005)会议的FR (Federal Register)部分,总计395M。这些数据中包括待检索文档56110篇,原始的查询文本50条与50条原始查询文本对应的目标文档号。所有实验数据均为来自TREC会议的标准数据集,从而保证了实验的客观性。
其他文献
该文首先对入侵检测系统的技术背景进行了简要的说明和归类,针对传统入侵检测技术的不足之处,将主要研究方向定在入侵检测模型的构建上,使用数据挖掘技术开发一套自动化、系
随着软件技术的不断发展,开发者和用户对于软件质量提出了更高的要求。为此,软件开发者试图从技术、管理等各层面控制软件开发过程,提高软件产品的针对性和可靠性,保证软件对于用
现代网络技术向分布式、动态化、智能化方向发展,移动代理技术就是在这一需求下应运而生的一种新的分布式计算模式.和传统的计算模式相比,移动代理具有许多优秀特性,如减少网
从嵌入式系统的体系结构出发,深入研究了嵌入式网络刻录系统的各个组成部分以及较常采用的解决方案,包括相关的硬件设备和一些新的技术和协议。在此基础上,提出了一种适用于
计算机网络的不断发展和普及,已逐渐成为大多数个人和几乎所有企业不可或缺的一个基础设施。计算机网络日益繁荣的同时,也面临着网络结构复杂、设备种类繁多维护困难、网络服
Internet作为通信与信息传播的工具正快速发展并且广为人们所接受。其中的安全与隐私问题也越来越突出,在一些应用如电子投票(E-Voting)、电子银行(E-Banking)、电子商务(E-Co
虚拟现实技术是最近才出现的一种新技术,它的目标就是提供一个可以让用户沉浸并参与其中的虚拟场景.虚拟现实技术给用户带来很多的新意,从而很快就得到了迅速的发展.VRML语言
随着计算机应用的越来越广泛,每年都要积累大量的数据,使得数据挖掘技术变得越来越重要。目前,数据挖掘在我国各行各业来说都还是一个较新的概念。可以预见,在不远的将来,数据挖掘
健壮性图着色问题(Robust Graph Coloring Problem-RGCP)是经典图着色问题的一种新的扩展,它有很大量的实际应用,比如说人员排班、排课等等.经典图着色问题的目标是寻找最小
随着计算机系统复杂性的不断增长和各种入侵攻击的不断加剧,传统的入侵容忍系统由于缺少自适应性和不具有自我管理的功能,从而无法适应日益复杂多变的系统安全需求。为此必须寻