蒙古文停用词表和词干提取对蒙古文文本分类的影响

来源 :内蒙古大学 | 被引量 : 11次 | 上传用户:kql999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着网络的发展,文本分类技术成为信息处理领域中重要的研究方向,通常用于处理和组织大量文本数据。蒙古语在中国来说是少数民族语言,蒙古文信息处理发展较慢,但在民族文化传承和发展中起着重要的作用。因此研究蒙古文文本分类技术具有非常重要的意义。本文的研究工作主要包含了以下三方面:(1)语料对分类系统的影响十分大,直接关系到分类系统性能。收集基于蒙古文国际标准编码的蒙古文文本,进行人工分类,构造用于实验的小型集合。(2)不同停用词选择方法对分类效果的影响不同,迄今为止,关于蒙古文停用词的研究成果还非常少。分析常用的停用词统计方法(主要有TF方法、DF方法、EC方法等),统计出相应的停用词表。在研究蒙古文词法、语法的基础上,提出基于翻译的停用词选择方法。通过实验比较不同停用词表对蒙古文文本分类系统的影响。(3)利用蒙古文后缀表进行词干提取处理。最后采用支持向量机算法作为分类算法,构建蒙古文文本分类系统。作者收集了850篇蒙古文文本,共分为9个类别。运用支持向量机算法的开源软件构建了系统。实验结果表明,EC停用词表效果最好、基于翻译的停用词表次之;蒙古文词干提取可以提高分类效率,与去除停用词相结合效果更好。
其他文献
随着人类社会经济文化的不断发展,人们的物质文化需求不断上涨,对于计算机网络及计算机技术有了更高的需求,于是出现了数据、图像、话音等多媒体的通信。在此发展背景下VOIP
随着计算机和网络技术的不断发展和应用领域的日益扩大,教育信息化的步伐也正在加速前进,各种教育管理的系统、种类繁多的教育资源,如校园中的网网络课程、网络答疑、网络考试系
本文在研究了基于内容的图像检索相关领域的关键技术及发展趋势的基础上,以植物花卉图像为研究对象,对植物花卉图像在区域分割、特征提取、基于内容的重复图像过滤以及基于SV
网格技术利用网络将地理上分布的计算机组织成为一个虚拟的超级计算机,充分吸收网络上的各种资源,使用户可以方便的使用高性能计算能力、昂贵的实验设备及其它稀有的资源,从
反病毒虚拟机技术是当今反病毒领域的核心技术之一,作为病毒检测的辅助手段被广泛应用。由于理论和技术上的缺陷,目前的反病毒虚拟机对系统运行机制的模拟不足、扩展能力差,对于
随着计算机网络的飞速发展,各高校网络规模的扩大,计算机网络监管的问题日益突出,给机房管理带来了巨大的压力。与人工管理效率低下相比,自动的网络监控软件的越来越显示出其
当前,推荐方式通常被分为三类:基于内容的推荐方法,协同过滤推荐方法和混合推荐方法。基于内容的推荐是为客户推荐其以往偏爱的产品的相似产品。它没有考虑到用户反馈的信息
在计算机辅助设计和制造系统中,每种系统都有自己规定的数据格式。由于存在众多的数据格式,给产品模型的信息集成、共享和交流带来了巨大的障碍。因此旨在交换图形数据的格式
在网络信息时代,企业和机构都在通过internet寻找新的商机和新的业务开展途径。与此同时,他们必须确保公开信息的信息资产的安全。随着客户、员工、合作伙伴和供应商的数量不
随着现代社会的发展和人们安全意识的提高,越来越多的重要场合,如车站、机场、银行、政府部门、居民社区等,都需要对人的身份进行鉴别。生物特征识别是一种利用人的生理或行