蒙古文信息检索系统中检索单元选取方法的研究

来源 :内蒙古大学 | 被引量 : 7次 | 上传用户:taitaixiangle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,中文信息检索和英文信息检索都进入成熟阶段,但是由于蒙古语言的独特性,蒙古文信息检索还有很多关键技术问题尚未完全解决,这些问题的解决对蒙古文信息检索的发展具有重要的意义,本文所研究的课题就是其中之一。蒙古语是内蒙古自治区的主体民族语言,是属于黏着性语言。蒙古文单词由词根衔接不同的词缀构成的,本文结合蒙古语的自身特点,利用已选好的信息检索模型对蒙古文信息检索系统中检索单元选取方法做了进一步的研究。供选择的信息检索模型有TF-IDF模型、向量空间模型和语言模型,并采用三种平滑算法进行平滑处理,分别是Good-Turing Smooth方法、JM Smooth方法、Katz Smooth方法,供选择的检索单元有整词形式、词根形式、词根+词缀的形式、n-gram形式,对每一种选取好的检索单元,都进行以下四个步骤:对语料库建立索引,解析Query,检索以及评价,从而比较它们的查全率和查准率,找出合适的检索单元。本文使用了29510篇文档,文档集大小为156 M,我们对此建立了信息检索测试,包括:语料库、12个Topic及对应的相关性文档。运用Lemur搭建了信息检索实验平台。实验结果表明蒙古文信息检索系统中较为适合的检索单元为词根+2个词缀形式和n-gram(n=4)形式。
其他文献
随着网络技术和即时通信技术的飞速发展,即时通信工具随之得到了广泛的应用。这一通信工具领域的革命,改变了人们以电子邮件为主的传统的通讯方式,使协同化办公中需要员工互
决策树剪枝是决策树优化的常用方法。在保持决策树分类精度的前提下,该方法通过去掉决策树中某些子树的方法,达到减小决策树规模的目的。目前的决策树剪枝方法按照一定顺序遍
近年来,伴随着网络信息技术的高速发展,产生了一种新式的数据模型——数据流。它常常产生于web上的用户点击、网络入侵检测、实时监控系统或无线传感器网络等动态环境中。相
虚拟人是人在计算机的数字世界中的形象表示。随着计算机技术和工业技术的不断发展,虚拟人技术在近几年有了快速的提高。目前虚拟人技术在航天航空、军事、医疗、教育等领域
针对新疆维吾尔自治区信息处理技术的重要性,以及当前联机手写维吾尔文识别技术尚不能完全解决支持连续书写的维吾尔文手写单词的输入问题,本文以联机手写维吾尔文连体段特征
学位
决策树分析就是知识发现的过程,决策树模型的复杂度和预测精度决定了决策树的好坏。决策树是根据启发规则生成的,常见的决策树生成算法有基于信息论的ID3、C4.5算法,但是这些算法在实际应用中都存在着各种不足之处。本文提出了一种基于信息熵的离散化算法I-C4.5算法,以减少C4.5算法在做数据离散化处理时产生计算量偏大的问题。本文将改进的算法I-C4.5应用到了医院对肺病住院费用决策树分析中,并对比分析
互联网和信息技术的迅猛发展,使得多媒体成为重要的交互方式,而数字图像的普遍使用,使得图像数据的安全性问题逐渐凸显,尤其在以互联网为主要交流平台的现代社会,一些敏感和私密信
随着计算机技术以及无线通信技术的不断发展,涌现出了一大批不同结构、不同环境、不同应用领域下的异构无线网络,同时随着大数据物联网技术的兴起,人们对网络的要求也越来越
无线传感器网络的广泛应用前景使其对安全的要求越发严格。由于部署区域的开放特性以及无线网络的广播特性,极易被敌人监听并进行破坏,加密和认证已经成为保障传感器网络安全