基于关联度的汉藏多词单元等价对抽取方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：A88833238

【摘要】

：

针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,该文提出了CMWEPM模型。该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽

【作者】

：

诺明花刘汇丹吴健丁治明

【机构】

：

中国科学院软件研究所,中国科学院研究生院

【出处】

：

中文信息学报

【发表日期】

：

2012年3期

【关键词】

：

藏文信息处理多词单元关联度 Tibetan information processing multi-word units collocation

【基金项目】

：

中国科学院“西部行动计划高新技术项目”（KGCX2-YW-512）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,该文提出了CMWEPM模型。该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽取严格和约束多词单元等价对,从而形成汉藏多词单元等价对。CMWEPM模型根据不同长度和频次对多词单元进行分类,并为不同类型设定不同阈值,最终提高了汉藏多词单元等价对的召回率,从而能够间接地提高汉藏辅助翻译系统的翻译质量。

其他文献

商品品牌名称挖掘

百度百科包含了大量的实体和丰富的链接与分类关系,在中文领域含有大量人类知识,能够弥补普通词典词汇覆盖面小的缺点。在商品品牌名称挖掘中,该文提出了发现新的品牌名称的

期刊

商品名挖掘半监督学习图算法brand name mining semi-supervised learning graph method

面向冗余度控制的中文多文档自动文摘

多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。

期刊

冗余度控制多文档自动文摘中文自动文摘reduandancy control multi-document summarization Chinese

基于栏目的藏文网页文本自动分类方法

该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表

期刊

藏文信息处理文本分类藏文网页分类Tibetan information processing text classification classifi

采用改进重采样和BRF方法的定义抽取研究

为了从专业领域语料中发现并获取所有的专业术语定义,该文提出了使用分类方法进行专业术语定义抽取的方法。该文采用一种基于实例距离分布信息的过采样方法,将其与随机欠采样

期刊

自然语言处理术语定义定义抽取文本分类重采样nature language process term definition definition e

基于关联度的汉藏多词单元等价对抽取方法

其他学术论文