基于语义分析的信息检索技术的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:Pleasehelp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前常用的信息检索技术主要还是基于关键词进行机械匹配,将研究的重点放在算法的优化上,而忽视了语义方面的研究。这不能从根本上解决语义多重性、检索表示多样性、相关网页漏检、结果排序不规范等问题。本文便是针对当前出现的这些问题展开研究,提出了基于语义分析的信息检索模型MIRSA。本模型主要包含以下四个关键点:歧义消除方法、语义扩展算法、检索词匹配策略、网页排序算法。该模型可有效解决语义多重性问题、避免相关网页漏检、合理提高相关网页的排序。在基于语义分析的基础上,本文使用了消除检索词序列中多义词无关语义的方法。该方法借助本体特性并利用了概念相似度来获取多义词所对应的不同概念与检索词序列中其它检索词概念之间的相似度,依据相似度的大小来排除多义词的无关词义。在语义扩展方面,本文依据本体树的结构特点,使用了一种检索词语义扩展的方法。该方法在不改变检索意图的前提下丰富检索词序列,避免了相关网页漏选现象,也为相关网页的排序提供了依据。针对扩展后的检索词序列,本文提出了与其相适应的检索词匹配方法。该方法将原检索词与扩展检索词区别对待,充分发挥新旧检索词对检索网页和网页排序的作用。最后,本文将语义分析引入到词频位置加权排序算法中。通过为检索词添加权重,改进型算法可更客观的计算出网页相对于检索词序列的相关度。本文利用Protégé3.4.7、Nutch1.2等开发工具获取实验数据。结合本实验软硬件开发、测试的实际环境情况,并在传统查准率的基础上引入相对查准率作为数据分析的理论依据。与常用信息检索模型进行对比分析,证明了该模型在减少相关网页漏选、依据网页重要度对其进行客观排序方面的有效性,从实验的角度印证了本论文思路的可行性。
其他文献
随着我国科学技术的提高,我国现代化农业飞速成长,设施农业已经成为我国农业的首要生产方式。设施农业解决了传统农业中土地利用率低、生产周期长、技术含量低、作业环境差等缺
随着互联网的广泛使用和数码产品的普及,数字图像在人们生活中所占的比重越来越大。为了快速准确的从海量数字图像中找到需要的图像,人们提出了图像检索技术。目前图像检索技术
根据摩尔定律的表述,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍。但是,晶体管数目不可能无限制的增加,它总会达到一个极限。另外由于电子计算机自身计算性能存在局
视频目标跟踪是计算机视觉领域中的一项重要研究课题,已经广泛应用于人机交互、视频监控、智能环境及军事领域等方面,因此研究视频目标跟踪是非常有意义的。均值漂移(Mean Shift
全同态加密技术的提出对计算机科学与技术的发展具有举足轻重的意义,甚至有人认为全同态加密技术是云计算的救星。全同态加密具有直接操作密文而不需要解密的优越性质,即对密文
近年来,随着经济的快速发展,农业食品安全问题日益凸显。实时地监测农业生产信息,对指导农业生产及解决食品安全问题有着重大的意义。在整个监控系统中,无线传感器网络网关系统处
移动容迟网络(MobileDTN,简称MDTN)是从延迟容忍网络(Delay Tolerant Network,简称DTN)发展起来的一种新型网络,其特点是节点移动性强、长延迟、低传输率,采取"存储-携带-转
基因组序列拼接是生物信息学领域的核心问题,测序产生的读取片段reads经过序列拼接组装,生成基因组的碱基序列。新一代测序技术的快速发展,为生命科学重大问题的研究提供巨大帮
随着近20年互联网技术的急速发展,各式各样的网站和Web应用层出不穷,这些网站的出现给人们的生活带来了便利。与此同时,作为互联网发展的副产品,网上也存在大量含有诈骗或有
本文的研究内容源于国家“十一五”科技支撑计划课题“勘察设计企业信息化关键技术研究与应用”当中的子课题“基于SOA技术的勘察设计企业应用软件架构系统”。当前,在Web服务