统计翻译模型在信息检索中的应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tiantangdaoguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为目前信息检索领域十分有效的检索模型,基于语言模型的检索方法开辟了一个很有潜力同时也十分具有挑战的方向。与传统检索模型相比,以语言模型为基础的检索方法不仅具有良好的理论基础,而且非常灵活,在经过简单变换和数学推导后就能够转变成其他经典实用的模型,因而被广泛应用于信息检索领域。  统计翻译模型作为语言模型的一种,主要被用于解决查询条件与网页文档之间的词汇间隙问题。大量研究表明,统计翻译模型能够很好的解决查询条件与网页文档之间的词汇间隙问题,对检索结果的相关性有显著提高。由于缺少相关训练语料,现有的研究采用相关语料代替理想语料进行训练。除此之外,现有的统计翻译模型信息检索系统大多基于简单的统计翻译模型,并且研究方向主要集中在平滑技术、自我翻译等,很少有引入上下文依赖以及语义信息。针对上述问题,本论文从以下方面进行研究:  (1)研究了网页文档中不同文本区域与查询条件语言表达相似性。通过统计语言模型、困惑度等传统方法对不同文本区域与查询条件语言表达相似性进行了初步分析。同时,通过商业搜索引擎的用户点击信息,获取真实的查询条件与网页文档的平行语料,并根据网页文档中不同文本区域训练得到的统计翻译模型对网页文档中不同文本区域与查询条件语言表达相似性做进一步分析。  (2)针对现有模型存在的一些问题,提出了基于N-Gram的统计翻译模型。该模型利用N-Gram的相关特性灵活的引入了上下文依赖,并且模型参数估计方法更为简单,适用范围更为广阔。同时,给出了基于N-Gram的统计翻译模型的平滑技术以及自我翻译问题的解决方法等。  (3)将潜在语义引入统计翻译模型中,探索了如何在基于统计翻译模型的信息检索任务中引入语义信息。该方法在直接估计词语之间翻译概率的基础上,引入了潜在语义变量,通过估计词语与具有一定语义信息的潜在语义变量之间的翻译概率进一步提高检索结果的相关性。
其他文献
数据密集型应用大部分都具有很强的数据依赖,普遍存在于诸如生物信息学、经济管理、生产调度、工程技术等科学计算领域。那些可分解为重复子问题并具有最优子结构的问题,可以
在服务系统的全生命周期中,服务工程方法对其进行描述、建模、实现和运行维护,服务建模是其中的重要组成部分。对于参与服务的服务提供者和顾客来说,价值是其期望从服务中获得的
随着互联网技术和云计算技术的高速发展,出现了WebOS这种基于Web的新型网络操作系统,与此同时,Web应用程序的功能也变得越来越强。从某种程度上来说,WebOS和Web应用程序已经可以
本学位论文对周期函数的正常积分带重结点的Gauss型求积公式和含Hilbert核奇异积分的单结点Gauss型求积公式作了一些基础性研究.全文分为三部分:  第一部分讨论了关于权函
作为分析和预防网络蠕虫传播的理论基础,网络蠕虫的传播模型系统随着网络系统的千变万化也变得越来越复杂。现在已经存在的网络蠕虫传播模型还存在不足,主要是对其过程中一些客
伴随着互联网时代快速发展的节奏,基于web开发的应用程序也越来越成熟,技术也越来越复杂。由于web应用丰富的功能特性,以及便于通过互联网对信息进行比较、处理、传播的能力,
多Agent之间按照约定的协议进行通信和协调,使得整个系统成为一个性能优越的整体,可以解决单个Agent难以解决的问题。然而由于各个Agent所处平台和拥有知识的不同,以及通信消
微博媒体拥有大量的微博用户,用户间相互交流、发布、分享、传播信息,生成大量的UGC(User Generating Content)信息。用户为了找到感兴趣的微博信息需要花费大量的时间。因此,如何
室外定位技术由于有着GPS的帮助,已经非常成熟和准确了。但是在室内中,由于环境问题使得GPS并不是任何时候都可以使用。而且室内定位追踪是立体的,所以传统的GPS坐标并不能很
实时系统是计算机科学的一个重要领域,这类系统目前广泛的应用于生产生活中。随着多核/多处理器系统在实时应用中的日益普及,多处理器实时系统的研究成为当前的热点。可调度