论文部分内容阅读
信息检索(IR)泛指用户从包含各种信息的文档集中找到所需要的信息或知识的过程。传统的信息检索系统主要是针对单一语种的文档集实现,一般是使用用户最为熟悉的语种作为查询语言。随着互联网的全球化发展趋势,用各种语言书写的信息汇聚在一个集合中,使系统提供对多语种文献进行同时查询的需求变得越来越迫切,由此而引发了信息检索界对跨语言信息检索的研究。
跨语言信息检索(CLIR)即用一种提问语言检索出用另一种语言书写的信息,是一种跨越语言界限进行检索的问题。在当今信息社会中,跨语言信息检索已成为世界范围内一个亟待解决的关键问题。Internet的全球信息基本结构造成针对跨语言信息检索系统的需要愈来愈强烈。因特网上,大约80%的网站是英文网站,而将近40%的因特网使用者不会英文。在这种情况下,如果用户能够以本国语言输入查询,进行跨语言检索,得出所需检索的各种语言的文本,将会受益非浅。
上海交通大学建立的机器人信息数据库属CALIS项目中的机械制造及自动化文献数据库中的子库,其内容着重于1986年以来国内外出版的各种中英图书、期刊、会议录、科技报告、专利产品等文献中有关机器人方面的文献资料、科技成果和产品信息。数据库采用TRS信息发布检索系统进行构建,该系统是由易宝北信信息技术有限公司开发的一个面向文本数据的数据库管理系统。本文的研究正是基于机器人信息数据库的。
本文旨在对跨语言信息检索的理论进行研究,以专业性很强的机器人信息数据库作为一个研究的平台,提出一种适用于专业数据库的跨语言信息检索模型,并根据所研究的理论模型,建立跨语言检索系统。系统基于机器人信息数据库建立中英双语语料库,在前端建立双语词典,实现查询翻译,消除歧义,后端加入反馈机制,以完善双语语料库。用户的查询通过字典、语料库进行翻译,在TRS全文检索系统的基础上实现对机器人信息数据库的跨语言信息检索。
跨语言信息检索的研究涉及到语言学、情报学、计算机科学等多门学科知识,是一个综合性强、富有挑战性的研究领域。本文的研究对于如何在专业领域数据库中构建跨语言信息检索系统具有一定的借鉴意义。