基于篇章上下文的统计机器翻译方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:dhtmlbox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
上下文信息对于统计机器翻译(Statistical Machine Translation,SMT)中的规则选择是很重要的,但是之前的SMT模型只利用了句子内部的上下文信息,没有利用到整个篇章的上下文信息。该文提出了一种利用篇章上下文信息的方法来提高规则选择的准确性,从而提高翻译的质量。首先利用向量空间模型获得训练语料的文档和测试集中文档的相似度,然后把相似度作为一个新的特征加入到短语模型中。实验结果表明,在英语到汉语的翻译工作中,该方法可以显著提高翻译质量。在NIST-08和CWMT-08两个测试集上B
其他文献
该文从研究背景、设计思路、标注体系和方法、加工步骤等方面介绍了汉语语义倾向语料库的建设过程.该语料库是一个以研究语言主观性表达为目的的共时、非平衡、单语标注语料
了解大学生家庭期望与人际信任之间的关系。于2010-03以随机抽样的方法对昆明三所大学190人进行问卷调查,问卷包括:家庭期望问卷、信任量表。运用描述统计、t检验、相关分析等
文档表示模型是文本自动处理的基础,是将非结构化的文本数据转化为结构化数据的有效手段。然而,目前通用的空间向量模型(Vector Space Model,VSM)是以单个的词汇为基础的文档表
音乐教育专业是高等师范院校中十分重要的专业,它肩负着为社会培养各类音乐人才的重任,目前,高师音乐教育专业在教育上存在的弊端:"课程设置与定性不合理"、"功利思想突出"、"培养
该文提出了一种基于衰退理论对Flickr数据进行热点事件检测的方法。该方法首先将从Flickr图像中提取的视觉词汇(Visual Words)与图像的文本信息加权合并成文档。然后训练LDA模型获得文档的主题分布作为其最终向量表示。在此基础上提出了一种改进的Single-Pass算法进行事件检测,该算法不仅考虑了图片的地理位置信息,而且基于衰退理论(Aging Theory)对检测到的事件进行生命周
计算机科学国家重点实验室于1994年12月经中国科学院批准正式对外开放,2005年1月经科技部批准开始建设国家重点实验室,2007年9月通过验收。实验室依托于中国科学院软件研究所,从
文本内容通常包含多个侧面,全面地识别这些内容侧面对自然语言处理有重要地意义。传统的统计方法使用简单特征难以识别出所有的内容侧面。以自动摘要为例,传统的抽取式方法多
个性化信息服务在高校图书馆开展逐渐成为一项重点工作,而影响这一工作的质量因素有很多,对此不同的高校图书馆面临着不同的问题,本文针对独立学院图书馆个性化信息服务存在的问
维吾尔语动词的体范畴是维吾尔语动词语法范畴中极为复杂的范畴,也是维吾尔语信息处理中的难点问题之一,计算机对维吾尔语动词体范畴的处理是在对人称、时、否定等语法范畴处
交互式问答是具备处理系列相关问题以及与用户进行对话式交互的问答技术,是近年来国际上问答技术研究的一个热门方向,但是目前在中文问答领域几乎没有开展相关的研究。实现交互