基于潜在中间语义的多语言信息检索研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:wumingwuming2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的发展,由于网络资源语种的多样性和网络用户所掌握语言的差异性,不可避免地给人们利用网络检索信息带来了语言障碍。例如,一个中国用户可能希望找到英语信息,而他的英语水平又不足以使他能用英语准确地表达自己的需求。多语言信息检索(Multilingual Information Retrieval,MLIR)正是为了满足这种需要而产生的,它是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。其主要的困难在于语言之间在表达方式和语义对应上的不确定性。基于辞典的模式和机器系统翻译的技术一度成为人们进行多语言信息检索的热点研究技术。然而仅用翻译模型进行多语言信息检索,难以处理词汇翻译的多对多问题和未登录词问题。通过使用平行语料库,从语义(概念)层面上来构建多语言信息检索模型,是当今多语言信息检索研究的新趋势。利用语言之间的潜在中间语义对应关系,把词空间映射到一个抽象的概念空间,可避免直接翻译到目标语言而导致的语义偏离,能部分解决词汇歧义和未登录词问题。据此,本文应用扩展的偏最小二乘理论提出了一种基于潜在中间语义的多语言信息检索模型:在统一框架下对双语语料库的平行文档进行分析建模,提取语言之间的潜在中间语义对应关系,在潜在中间语义空间中进行检索,从而实现多语言信息检索。本文主要工作:1、分析并深入研究了基于辞典翻译进行多语言信息检索存在的翻译歧义问题,针对该问题,应用扩展的偏最小二乘理论,提出了一种同时考虑双语平行文档的语义对应模型;2、在自建的中英平行语料库和蒙特利尔大学提供的英法平行语料库基础上,对平行文档进行分析建模,建立了中英、英法跨语言信息检索模型,并利用英语作为过渡语言,建立了中法跨语言信息检索模型;3、在TREC5&9和TREC3的AP&SDA数据集上进行了中、英、法三种语言的跨语言信息检索实验,且与单语言的信息检索模型进行了比较,实验结果显示本文提出的模型表现了较好的性能。
其他文献
泛函网络是对人工神经网络的一种有效推广,但有些理论还不太健全,需要人们不断地提出新的模型和新的算法,完善基础理论,以便进一步拓展泛函网络的应用范畴。本文从计算方法的角度
随着Java软件平台技术的不断发展,Java软件的应用已经从桌面的应用延伸到企业平台,大型信息系统,控制系统,嵌入式系统等各个方面。但由于Java软件体系结构的特点决定了Java软
RIA(Rich Internet Application,丰富互联网应用程序)模式是一种新的软件设计方式,它为电子商城平台的发展注入了新的力量。电子商务平台共同存在以下缺点:1、购物流程复杂,顾客
本文介绍了当前网络安全的现状,对传统的防火墙进行了研究,介绍了传统防火墙的发展史,基本特性以及传统防火墙的主要缺陷,分析了国内外智能防火墙技术的发展状况,智能防火墙
网格的目标是整合地理上分布的资源为用户提供各种服务,因此,如何有效地发现资源、利用资源成为网格研究领域中的关键技术。本文将协商模型引入到基于经济的网格资源管理方法
智能化的多运动目标检测与跟踪系统可以大量减少工作人员,提高工作效率,极大的提高监控系统的性能,是计算机视觉领域非常活跃的一个研究方向。目前在安防、军事、医疗领域具
等圆packing问题是一类非常典型的NP难度问题,它不仅在工程上有广泛的应用,更具有特殊的理论意义。20世纪70年代至今的计算复杂性理论表明,对于NP难度问题可能根本就不存在多
随着电子技术和计算机技术的发展,使得每天都有大量的图像信息产生,如何有效地对迅速膨胀的图像进行分类、检索和管理已成为国内外研究的热点问题。近年来,基于内容的图像检
近年来,基于网格聚类算法的研究己经成为数据挖掘研究领域中非常活跃的一个研究课题。本文在研究传统聚类算法的基础上,给出基于优化网格的最小生成树聚类算法(OGMST)。该算
迭代算法作为一种经典的算法,在现实生活中,如科学计算、数据挖掘中有着广泛的应用。随着大数据时代的到来,可以获得的数据量级不断增加,时间性能的要求也愈加苛刻。如何在保