【摘 要】
:
近年带标语料库被业内人士誉为金本位,主要是因为它们常常被用作自然语言处理系统训练和测试的语料,起到标准答案的作用.作者指出带标语料库实际上是某种特定语言信息最原始
【机 构】
:
微软亚洲研究院,北京,100080
论文部分内容阅读
近年带标语料库被业内人士誉为金本位,主要是因为它们常常被用作自然语言处理系统训练和测试的语料,起到标准答案的作用.作者指出带标语料库实际上是某种特定语言信息最原始的知识载体,是大规模词例化知识的基本表示形式,关于这种语言知识的其他表示形式都是由此派生出来的.以自动分词技术为例,从分词规范到"规范+词表",然后到带分词标记的语料库,这条发展轨迹记录了人们在分词技术上取得的巨大进步,尤其是认识上的深化.本文通过2003年国际自动分词评测活动Bakeoffl介绍了活动用四种带分词标记的语料库来实现全自动评测的新方法.然后作者通过对BakeofflPK和AS两个测试语料库的调查发现,它们的分词出错率分别达到了1.29%和2.26%,从而对分词系统的评测结果带来显著的影响.为此建议用标注信息的出错率来定量地评价每个带标语料库的标注质量,以真正维护其金本位的功能.
其他文献
词法形态分析是蒙古文信息处理诸多应用系统的一个不可或缺的模块.传统蒙古语语法学在这方面取得了一定的成果.然而,面向计算机的语言知识颗粒度极细、颗粒数量极大,在本质上
随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题.一个重要的原因是从大规模的语料库中能够提取出所需要的知识.而语料文本的
鉴于现代蒙古语语料库加工的新需要,内蒙古大学蒙古学学院和北京大学计算语言学研究所合作开发了新一代蒙古语词语自动切分标注系统.本文在对新旧系统进行比较的基础上,着重
(笔试部分答题时间:90分钟)第一部分听力(因听力部分不方便实施,故此处30题听力试题改成听力指导。)英语PETS一级考试的听力部分共分为三节,每节10题,共计20分钟,考查同学们
作为一项重要的基础资源,双语平行语料库在人工智能领域的研究起着举足轻重的作用.我国涉及少数民族语言的双语语料库的探索工作相对较少,本文介绍了汉维双语语料库的建立过
本文介绍了蒙古文编码国际标准通过以后编制的几个蒙古文录入系统.对其存在的问题进行了分析和比较,提出了解决方法的设想.
本文结合作者研发经验,介绍蒙古文、托忒蒙古文、锡伯文、满文、藏文、维吾尔文、哈萨克文、柯尔克孜文、朝鲜文、彝文、西双版纳傣文和德宏傣文的编码和排版技术.
本文介绍了我们开发的针对不同的客户群体纳西象形文信息处理系统,解决了纳西象形文的信息化的需要.纳西象形文信息处理平台包括纳西象形文字库、输入法机及相应的应用软件,
本文通过介绍我们的基于MSWord二次开发的解决方案,集中讨论契丹小字编码方法、字体字库制作、输入法开发和契丹小字编辑排版,查询系统的实现.
本文基于QT介绍了一个支持垂直显示的框架并给出了其具体实现,为实现文本的垂直显示、实现较完善的竖排系统奠定了基础.