云翻译平台下基于海量语料的统计机器翻译方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:quangang770
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断进步和计算机网络的飞速发展,每天在互联网上传播的信息和知识达到以往数倍。同时,现实领域中也产生了海量的双语数据,这些数据对于统计机器翻译研究无疑是一笔巨大的财富。但是,由于数据来源不同、获取方法粗糙、译员水平不一等问题,导致数据的质量和领域存在巨大差异,这些差异性都会影响到机器译文的质量。此外,受限于计算能力和存储能力的制约,在单机环境下已经很难高效的处理TB级以上的大规模文本语料。  本文围绕上述几个问题展开研究,尝试分析并解决语料质量和领域差异对统计机器翻译带来的问题。主要工作和创新点包括以下几点:  1.基于双语句对质量的语料筛选。本文提出了两种语料筛选策略,基于双语句对长度比值方法和基于词对齐信息方法。这两种方法的创新之处是都不需要额外语言学资源如双语词典、句法分析器等作为辅助,不需要人工干预,可以自动挑出质量较差的句对,并可以适用于任何语种对。实验表明,两种方法均有不错的效果,可以有效提高统计机器翻译质量。  2.双语平行句对的领域自动分类。本文分析了领域差异对统计机器翻译系统的影响。提出了一种基于n元组的半监督领域分类方法,实现了对大规模混合领域双语句对的句级领域分类。使用该分类器识别出待译语句的领域种类,并应用对应领域的翻译系统完成翻译任务。  3.大规模文本处理的分布式算法实现。本文结合开源系统Hadoop,使用分布式处理算法实现语料筛选和领域分类。
其他文献
对无线自组网的研究主要有三种方法:软件模拟技术、实物测试床技术和半实物仿真技术。软件模拟技术通过对计算机模型来研究无线自组网的运行规律,该方法成本小、周期短,而试验
随着互联网宽带用户的普及和网络视频内容的爆炸式增长,流媒体点播服务使得人们接受信息,交流信息的方式发生前所未有的改变,流媒体点播服务已成为当前互联网最热门的应用之
随着计算机技术的飞速发展,多媒体数据的急速膨胀给我们带来了机遇和挑战。在浩如烟海的多媒体数据中,图片和视频具有生动形象的特征,能给人耳目一新的感觉。怎样在众多的图
我国目前煤矿开采业存在机械化、自动化、信息化程度低等技术不够成熟的问题,是导致煤矿事故频发的主要因素之一。矿井机车运输作为煤矿井下开采过程中的重要一环,它对提高生产
场景图像分类在图像检索和视频检索领域得到广泛的应用,已成为计算机视觉领域的一个研究热点。场景图像分类的主要难点问题是低层视觉特征与高层语义之间存在―语义鸿沟‖。近
无线传感器网络通常由部署在特定区域的数量庞大的微型传感器组成,这些传感器节点之间互相协作对需要监测的目标区域进行监控并实时采集需要的数据。节点采集到的数据通过节点
随着网络的广泛应用和即时通信(Instant Messaging, IM)软件的迅猛发展,利用即时通信系统和即时通信协议的漏洞或者技术特征进行攻击,并在即时通信网络内传播的即时通信蠕虫(IM
信息技术在现代生产生活各方面的应用越来越广泛,作为信息技术核心支撑的软件系统也变得越来越重要,其应用正在逐步渗透到社会的各个领域中去。时至今日,现在各行各业中的应
随着科技的不断发展、技术的不断进步,在计算机、互联网后,物联网(Internet of Things, IOT)逐渐得到广泛的研究和发展。然而,由于物联网的自身的特性,传统意义上的互联网的
相对于传统光学图像,深度图像能直接给出距离,几何特征等信息,并且不受纹理,光照等环境因素的影响。飞行时间法三维无扫描传感器通过测量发射信号与反射信号之间的相位差来产生目