汉、蒙、藏、维分词与词性标注技术发展现状研究

来源 :第五届全国青年计算语言学研讨会(YWCL 2010) | 被引量 : 0次 | 上传用户：wlc198812

【摘要】

：

中文信息处理用各种统计方法实现精度的提高，而规则的运用更多是在歧义和未登录词的研究上。蒙古语的统计方法发轫于近几年，但更多的是一种理念的进步，仍是以词干加附加成分的规

【作者】

：

通拉嘎;

【机构】

：

中央民族大学少数民族语言文学学院北京 100081 泉州师范学院福建 362000 国家语言资源监测与研究中心少数民族语言分中心北京 100081

【出处】

：

第五届全国青年计算语言学研讨会(YWCL 2010)

【发表日期】

：

2010年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中文信息处理用各种统计方法实现精度的提高，而规则的运用更多是在歧义和未登录词的研究上。蒙古语的统计方法发轫于近几年，但更多的是一种理念的进步，仍是以词干加附加成分的规则方法为主，现有AYIMAG和DARHAN切分和词性标注系统。藏文较多运用规则加统计的方法，也有直接运用viterbi算法进行分词的成果，其基于规则的方法是用格助词和词典库进行分词;现有北大计算语言学研究所和国家语言资源监测与研究中心少数民族语言分中心的藏文自动分词系统，不过还未见藏文词性标注系统的实现成果。维吾尔语有基于隐马尔科夫模型的viterbi算法与基于n-gram模型的尝试，其规则方法仍足词干加附加成分的切分理念，现还未见可用的切分与标注系统。

其他文献

基于语句相似度的网页标题抽取方法

目前网页标题的抽取方法大多利用HTML结构和标签特征生成特定规则进行抽取，但是这些方法只考虑到了HTML的统计特点，没有考虑标题与正文信息之间的关系。本文提出一种基于相似度

会议

语句相似度网页标题抽取方法信息统计特点特征生成特定规则实验结果权值关系泛化能力非标准HTMLHITS算法模型结构计算标签

汉语对应英语定语从句结构的一种自动翻译方法

受到西方语言语法体系的影响，现代汉语中能够翻译成英语对应的从句的结构越来越多。但是因为汉语传统的语法结构与西方语言语法体系有着很大的不同，利用西方语言的句法分析方法

会议

铁矿石:支撑因素减弱

进入2010年,巴西CVRD和澳洲BHP、Rio甚至包括FMG们被全球范围内粗钢产量的快速增长所鼓舞,在铁矿石刚性需求渐趋强烈的趋势下,大幅提高铁矿石价格成为巨头们的主要努力方向.

期刊

从迭句中辨识出三类花园幽径句

在大句的范围内小句的组织结构会呈现某些特定的模式，即大句范式。而范式的运用存在着语种间的有无或常用罕用之别，需要在翻译时予以变换。迭句与花园幽径句都是汉语的常用大句

会议

辨识算法花园幽径句汉英机器翻译范式组织结构转换规则实验结果容易混淆不足之处以变换语种小句识别模式汉语改进分析

俄语军事缩略语知识库的构建

缩略语是几乎所有的语言中都存在的语言现象，它把必要的信息压缩到在接触的一瞬间就能立刻了解的程度，使语言的使用和表达更加的便捷和快速。由于缩略语本身具有的简洁、快速等

会议

俄语军事领域缩略语知识库自然语言处理自动处理语言现象信息压缩收词量计算机保密性问题特点内容理论接触回避查询表达

基于概率和句法分析的中文句子修剪

提出了一种中文句子修剪方法。引入噪音通道模型，经过改进，提出了更适合句子修剪任务的Bi—NC模型。引入无导的方法，解决了中文中缺乏原句-压缩句对齐语料的瓶颈问题。提出

会议

基于概率句法分析中文句子修剪方法自底向上优化算法优化过程瓶颈问题通道模型实验结果导的方法处理时间句对齐噪音语料压缩改进

儿童免疫倡议及全球疫苗接种规划

儿童免疫倡议及全球疫苗接种规划（特别专家顾问组推荐）第一部分：有关儿童免疫倡议（ＣＶＩ）及全球疫苗免疫接种规划（ＧＰＶ）的特别专家组（ＳＡＧＥ）于１９９７年６月１１～１３日在日内瓦召开了第二次会议。以下是该组对此次会议

期刊

儿童免疫疫苗接种疫苗免疫接种扩大免疫规划轮状病毒疫苗专家顾问组肺炎球菌结核疫苗国家免疫规划脊灰

基于MC-Value的非句蜕广义对象语义块的边界识别

多词语单元识别问题是目前计算语言学的研究热点之一。多词语单元是一个描述相对完整的若干词语组合，包括固定或半固定搭配。在语义块分析系统中，本文采用修改后的C-value方法

会议

没成熟的西红柿别吃

西红柿同黄瓜一样,既可作蔬菜烹煮食之,也可作为水果生吃或凉拌食用。而与黄瓜不同的是:西红柿不能吃嫩的、未成熟的。成熟的西红柿才含有它应有的多种营养素。嫩西红柿中缺

期刊

有毒的

基于电影对白的现代汉语普通话语音历时对比分析

普通话已经走过了近百年的历程，目前还很少有人对普通话的历时语音变化及其韵律特征进行系统的实验研究。本文以2005年颇具代表性的广播电视谈话体语料为基准数据，选取《现代汉

会议

汉、蒙、藏、维分词与词性标注技术发展现状研究

与本文相关的学术论文