基于语言模型的跨汉蒙信息检索技术研究

来源 :内蒙古大学 | 被引量 : 5次 | 上传用户:zyhope006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展及信息的全球化,人们对不同语言的信息需求越来越多。对于大多数不精通外语的用户来说,想要获取需求的信息存在一定的难度。因此有研究者提出了对跨语言信息检索的研究,目前在汉英等语言的跨语言检索方面已经有很多研究成果。但是,在蒙古文方面相关的检索还很少。而蒙古文是世界上很有影响力的语言,因此蒙古文信息检索的研究具有非常重要的意义。   影响一个跨语言信息检索系统的性能有很多因素,但最主要的是信息检索模型,其研究内容包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。   由于查询扩展方法的好坏直接影响到检索的效果,因此本文提出了基于关联词与共现距离相结合的查询扩展方法,解决汉语查询项到蒙古文查询项进而到蒙古文文档的检索。在本论文中,我们是利用双语汉蒙词典和蒙汉词典对初始汉语查询项进行关联词的扩展,然后再利用共现距离模型对扩展后的蒙古文查询项进行再扩展,最后检索蒙古文文档,得出检索结果。   实验结果表明,蒙古文停用词表有效减少了索引大小,使用stemming规则使得索引中的Term个数减少了将近一半,并有效提高了检索的准确率和查全率;本文提出的基于关联词和共现距离相结合的查询扩展方法在查全率、平均准确率等方面均有一定的改善,有效提高了跨汉蒙信息检索的性能。
其他文献
LTE(长期演进)是3GPP为了改进3G技术推出的演进项目,采用MIMO+OFDM技术,提高了频谱利用率和数据无线传输速度,采用改进的空中接入技术,改善和提高了小区边缘用户的性能及小区容量,同
目前关系数据库的关键词检索分为基于元组图的方法和基于模式图的方法,这两种方法的基本检索单元都是元组,因此它们本质上是基于元组图的,元组图的缺点是数据规模太大,而且由
当前有关食品安全问题的报道时有发生,如“毒豆芽”、“染色黑芝麻”等,而且,忙碌的上班族常常没有时间购买新鲜的农产品。城市人群希望方便地购买到安全新鲜的农产品,农村人
近十年来,频繁模式挖掘在数据挖掘领域扮演着十分重要的角色.尽管属于数据挖掘中的一个年轻的领域,频繁模式挖掘已取得巨大的进步并获得了多方面的应用.若一个模式频繁地在数
随着网络应用的逐渐发展,用户更加关注网络安全问题,防火墙成为保护用户系统安全的重要手段,也是网络安全领域最为成熟的访问控制技术。目前国内外学者以及安全公司都不断研
随着文化建模的发展,背景知识开始用于预测恐怖组织在特定背景下的恐怖行为。组织的背景知识会影响组织采取的恐怖行为,因此利用组织的背景知识可以提高预测结果的准确率。目
多年以来企业和云提供商一直使用虚拟化的云平台运行应用程序,并且都是在虚拟机中运行。虚拟机技术提供整个硬件层的虚拟化,虽然实现了资源的隔离与控制,但使用成本较高。容
随着信息技术的飞速发展,人们日常的生活已离不开互联网。互联网给人们带来便捷的同时,由于多数网站不符合无障碍标准,使得残疾人无法像健全人那样方便的获取互联网信息。为
煤矿井下分站是煤矿监测监控系统的重要组成部分,是连接井下各数据采集模块与地面监控中心站之间数据传输的桥梁,承担了对井下各参数的采集以及实现分站和中心站之间所有数据
在教学管理部门的数据库中,存储了大量的学生各门课程的成绩数据,这些数据中隐藏着许多有价值的重要知识,如何挖掘出这些知识,对学生的学习和教学管理部门的教学管理,具有重