论文部分内容阅读
当前常用的信息检索技术主要还是基于关键词进行机械匹配,将研究的重点放在算法的优化上,而忽视了语义方面的研究。这不能从根本上解决语义多重性、检索表示多样性、相关网页漏检、结果排序不规范等问题。本文便是针对当前出现的这些问题展开研究,提出了基于语义分析的信息检索模型MIRSA。本模型主要包含以下四个关键点:歧义消除方法、语义扩展算法、检索词匹配策略、网页排序算法。该模型可有效解决语义多重性问题、避免相关网页漏检、合理提高相关网页的排序。在基于语义分析的基础上,本文使用了消除检索词序列中多义词无关语义的方法。该方法借助本体特性并利用了概念相似度来获取多义词所对应的不同概念与检索词序列中其它检索词概念之间的相似度,依据相似度的大小来排除多义词的无关词义。在语义扩展方面,本文依据本体树的结构特点,使用了一种检索词语义扩展的方法。该方法在不改变检索意图的前提下丰富检索词序列,避免了相关网页漏选现象,也为相关网页的排序提供了依据。针对扩展后的检索词序列,本文提出了与其相适应的检索词匹配方法。该方法将原检索词与扩展检索词区别对待,充分发挥新旧检索词对检索网页和网页排序的作用。最后,本文将语义分析引入到词频位置加权排序算法中。通过为检索词添加权重,改进型算法可更客观的计算出网页相对于检索词序列的相关度。本文利用Protégé3.4.7、Nutch1.2等开发工具获取实验数据。结合本实验软硬件开发、测试的实际环境情况,并在传统查准率的基础上引入相对查准率作为数据分析的理论依据。与常用信息检索模型进行对比分析,证明了该模型在减少相关网页漏选、依据网页重要度对其进行客观排序方面的有效性,从实验的角度印证了本论文思路的可行性。