基于篇章上下文的统计机器翻译方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：dhtmlbox

【摘要】

：

上下文信息对于统计机器翻译（Statistical Machine Translation,SMT）中的规则选择是很重要的,但是之前的SMT模型只利用了句子内部的上下文信息,没有利用到整个篇章的上下文信息

【作者】

：

于惠谢军熊皓吕雅娟刘群林守勋

【机构】

：

中国科学院计算技术研究所智能信息处理重点实验室

【出处】

：

中文信息学报

【发表日期】

：

2013年2期

【关键词】

：

统计机器翻译上下文信息向量空间模型 Statistical Machine Translation context information Vector

【基金项目】

：

国家自然科学基金资助项目（61202216）, 国家863计划资助项目（2011AA01A207）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

上下文信息对于统计机器翻译（Statistical Machine Translation,SMT）中的规则选择是很重要的,但是之前的SMT模型只利用了句子内部的上下文信息,没有利用到整个篇章的上下文信息。该文提出了一种利用篇章上下文信息的方法来提高规则选择的准确性,从而提高翻译的质量。首先利用向量空间模型获得训练语料的文档和测试集中文档的相似度,然后把相似度作为一个新的特征加入到短语模型中。实验结果表明,在英语到汉语的翻译工作中,该方法可以显著提高翻译质量。在NIST-08和CWMT-08两个测试集上B

其他文献

汉语语义倾向语料库的建设

该文从研究背景、设计思路、标注体系和方法、加工步骤等方面介绍了汉语语义倾向语料库的建设过程.该语料库是一个以研究语言主观性表达为目的的共时、非平衡、单语标注语料

期刊

语义倾向语料库主观性建设semantic orientation corpus subjectivity construction

家庭期望与大学生人际信任的关系

了解大学生家庭期望与人际信任之间的关系。于2010-03以随机抽样的方法对昆明三所大学190人进行问卷调查,问卷包括：家庭期望问卷、信任量表。运用描述统计、t检验、相关分析等

期刊

人际信任家庭期望大学生

基于词共现的文档表示模型

文档表示模型是文本自动处理的基础,是将非结构化的文本数据转化为结构化数据的有效手段。然而,目前通用的空间向量模型（Vector Space Model,VSM）是以单个的词汇为基础的文档表

期刊

文档建模词共现文档相似度文本挖掘document model co-occurrence document similarity text min

高师音乐教育问题探究

音乐教育专业是高等师范院校中十分重要的专业,它肩负着为社会培养各类音乐人才的重任,目前,高师音乐教育专业在教育上存在的弊端：＂课程设置与定性不合理＂、＂功利思想突出＂、＂培养

期刊

音乐教育课程设置功利思想新课标

基于衰退理论的Flickr热点事件检测方法

该文提出了一种基于衰退理论对Flickr数据进行热点事件检测的方法。该方法首先将从Flickr图像中提取的视觉词汇(Visual Words)与图像的文本信息加权合并成文档。然后训练LDA模型获得文档的主题分布作为其最终向量表示。在此基础上提出了一种改进的Single-Pass算法进行事件检测,该算法不仅考虑了图片的地理位置信息,而且基于衰退理论(Aging Theory)对检测到的事件进行生命周

期刊

事件检测视觉词汇地理信息LDA衰退理论event detection visual words geographic information L

中国科学院软件研究所计算机科学国家重点实验室主任招聘启事

计算机科学国家重点实验室于1994年12月经中国科学院批准正式对外开放，2005年1月经科技部批准开始建设国家重点实验室，2007年9月通过验收。实验室依托于中国科学院软件研究所，从

期刊

中国科学院软件研究所计算机科学理论实验室主任国家重点实验室中国科学院院士招聘对外开放基础研究

服务于内容侧面发现的框架识别

文本内容通常包含多个侧面,全面地识别这些内容侧面对自然语言处理有重要地意义。传统的统计方法使用简单特征难以识别出所有的内容侧面。以自动摘要为例,传统的抽取式方法多

期刊

FrameNet语料库内容侧面发现框架识别FrameNet aspect recognition frame identification

浅析独立学院图书馆个性化信息服务存在的问题及措施

个性化信息服务在高校图书馆开展逐渐成为一项重点工作，而影响这一工作的质量因素有很多，对此不同的高校图书馆面临着不同的问题，本文针对独立学院图书馆个性化信息服务存在的问

期刊

个性化信息服务问题措施

维吾尔语动词体范畴的有限状态自动机的构建

维吾尔语动词的体范畴是维吾尔语动词语法范畴中极为复杂的范畴,也是维吾尔语信息处理中的难点问题之一,计算机对维吾尔语动词体范畴的处理是在对人称、时、否定等语法范畴处

期刊

维吾尔语动词体范畴有限状态自动机形式化Uyghur languageverbaspect categoryfinite state machin

中文交互式问答用户问题相关检测研究

交互式问答是具备处理系列相关问题以及与用户进行对话式交互的问答技术，是近年来国际上问答技术研究的一个热门方向，但是目前在中文问答领域几乎没有开展相关的研究。实现交互

期刊

计算机应用中文信息处理交互式问答问题相关检测二元分类computer application Chinese information proces

基于篇章上下文的统计机器翻译方法

与本文相关的学术论文