论文部分内容阅读
随着因特网的发展,由于网络资源语种的多样性和网络用户所掌握语言的差异性,不可避免地给人们利用网络检索信息带来了语言障碍。例如,一个中国用户可能希望找到英语信息,而他的英语水平又不足以使他能用英语准确地表达自己的需求。多语言信息检索(Multilingual Information Retrieval,MLIR)正是为了满足这种需要而产生的,它是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。其主要的困难在于语言之间在表达方式和语义对应上的不确定性。基于辞典的模式和机器系统翻译的技术一度成为人们进行多语言信息检索的热点研究技术。然而仅用翻译模型进行多语言信息检索,难以处理词汇翻译的多对多问题和未登录词问题。通过使用平行语料库,从语义(概念)层面上来构建多语言信息检索模型,是当今多语言信息检索研究的新趋势。利用语言之间的潜在中间语义对应关系,把词空间映射到一个抽象的概念空间,可避免直接翻译到目标语言而导致的语义偏离,能部分解决词汇歧义和未登录词问题。据此,本文应用扩展的偏最小二乘理论提出了一种基于潜在中间语义的多语言信息检索模型:在统一框架下对双语语料库的平行文档进行分析建模,提取语言之间的潜在中间语义对应关系,在潜在中间语义空间中进行检索,从而实现多语言信息检索。本文主要工作:1、分析并深入研究了基于辞典翻译进行多语言信息检索存在的翻译歧义问题,针对该问题,应用扩展的偏最小二乘理论,提出了一种同时考虑双语平行文档的语义对应模型;2、在自建的中英平行语料库和蒙特利尔大学提供的英法平行语料库基础上,对平行文档进行分析建模,建立了中英、英法跨语言信息检索模型,并利用英语作为过渡语言,建立了中法跨语言信息检索模型;3、在TREC5&9和TREC3的AP&SDA数据集上进行了中、英、法三种语言的跨语言信息检索实验,且与单语言的信息检索模型进行了比较,实验结果显示本文提出的模型表现了较好的性能。