对于多语言信息检索建立词典库的研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:harddisk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代数字图书馆包含大量多语种信息。为了提高检索准确率,人们常常通过词典建立索引进行检索。但是许多亚洲语言缺乏这样的词典,也缺乏用于机器翻译的公开的电子辞典。本文评述了词汇本体模型的发展历史,提出了基于同源词汇的僧伽罗语一英文词典的建立方法。   在斯里兰卡多元化的环境下,进行多语言信息检索是必要的。这些元化间的()互理解,这将有助于斯里兰卡各民族的更大和解甚至结束几十年的种族战争。从以前的研究来看,基于并列语料库的多语种信息检索方法要远贵于基于词典的系统。因此我们提出了基于同源词的方法以及构建一个僧伽罗语一英语词表的算法。由于泰米尔语——英文词典已经存在,所以僧伽罗语--英文词典可以帮助建立僧伽罗语--泰米尔语词典。僧伽罗语和泰米尔语是斯里兰卡最主要的当地语言。   本文的研究背景中论述了不同的词典模型,以及词典建立的方法。这些研究最早可以追溯到1996年。   本文提出的基于同源词汇的方法是一种创新的自动翻译的方法。它通过基于词频的同源临近词的方法,来筛选候选的英文和僧伽罗语之间的翻译对照。将来,这些翻译可以通过本体实例加入本体库。例如英语的WordNet可以扩展僧伽罗语词汇使之成为多语言词汇。
其他文献
结合厦门市图书馆总分馆建设实践,介绍直管型、托管型、联办型和加盟型等4种分馆建设模式及其优劣,并对总分馆建设实践进行思考,提出推进公共图书馆网络建设要发挥政府的主导
以东莞构建城市图书馆服务体系的实施战略、实施过程和实施效果为例,探讨图书馆集群化管理的理论与总分馆制的实现方法,以期为正在发展的城市图书馆服务体系建设提供参考.
学术文献中蕴含了大量具有学术价值的核心知识点,对学术文献中的核心知识的抽取有利于学术知识的利用。本文针对学术文献的结构和语言使用的特征,提出了一套基于句法分析的文献
通过嘉定区图书馆作为上海市中心图书馆分馆在参与上海市中心图书馆建设过程中工作开展的情况,阐述作为城市区级图书馆在中心图书馆建设中如何依托中心图书馆网络体系,不断完
面对快速增长的文本信息,众多研究人员进行了大量基于文本内容的分析,生态治理技术领域情报分析在大数据环境下,也面临着从海量文本中获取特定内容的挑战,如科研人员需要获取生态
期刊
介绍图书馆学范式是对图书馆理论或实践的本质及其发展持有相同或相似观点/信念的一群研究者所共有的价值取向和话语特征;阐述依据不同的价值取向和话语特征,可以区分出不同
在探讨实施图书馆学本土化必要性的基础上,进一步阐释“本土化”与“中国图书馆具体实际”的内涵,即本土化实质是西方图书馆学基本原理与中国图书馆学、中国传统文化和中国实
研究目的 随着外购电子资源的不断增加,如何提高这些资源的利用率,如何使资源更有效地服务于读者,始终是公共图书馆最为关切的.作者结合项目实践经验,探讨了如何利用远程访问
在介绍我国开放存取理论研究和实践探索进展的基础上,从宏观环境、学术期刊出版机制、相关利益群体的协调、学术评价机制等方面对我国发展开放存取的优势及主要障碍进行剖析,