【摘 要】
:
随着自然语言处理的研究在近年来的不断深入,机器翻译的发展也得到了长足的进步。但对于小语种的翻译仍很少见,本文以研究统计机器翻译理论为出发点,针对维语-汉语之间的统计机
论文部分内容阅读
随着自然语言处理的研究在近年来的不断深入,机器翻译的发展也得到了长足的进步。但对于小语种的翻译仍很少见,本文以研究统计机器翻译理论为出发点,针对维语-汉语之间的统计机器翻译中的数据稀疏问题,以构建和处理维-汉平行语料库为核心,展开了以下研究: (1)统计机器翻译的首个关键问题是平行语料库的建立,本文针对构建双语平行语料库已有的一种句对齐方法,对其提出了改进,使句对齐的准确率得到了提高。 (2)词切分是解决统计机器翻译中数据稀疏问题的有效方法,本文在研究了已有基于统计的词切分方法之后,通过对维语在形态学方面变化规则深入研究,给出了基于维语形态学规则的词切分,最后与基于统计的方法做了对比,实验表明在词切分的正确率和翻译结果质量上都得到了提升。 (3)对本文提出的两种方法,并在实际的系统中得到了应用。句对齐算法应用到了构建维汉双语平行语料库的系统中;基于规则的词切分方法应用到了TellMeaning维汉翻译系统中。 本文提出的两种方法分别在构建平行语料库和解决统计机器翻译中的数据稀疏问题都有着较好的效果,具有一定的实用性和借鉴意义。
其他文献
无线移动设备的大量使用和普及,使容迟网络(Delay Tolerant Networks, DTN)成为目前无线网络应用研究的热点。这种靠移动设备自组织成的网络,其拓扑结构随着节点的高速移动不断
研究无线传感器网络一个重要目的就是在满足网络应用需求和保证数据通信安全的前提下,尽可能地延长整个网络的生命周期。在以分簇方式组织的传感器网络中,靠近基站的节点因转
数字视频属于国家重点发展的信息产业领域,随着宽带网络和数字电视的迅速发展,视频点播、交互电视、视频网站等应用需求将越来越广泛,这些应用都将共同面临大量涌现的数字化
聚类是数据挖掘的一个重要研究问题,它可以有效地帮助我们分析数据的分布、研究数据的特征、寻找隐藏在数据中的结构,以便作进一步分析和利用。聚类边界代表着那些归属明确,
随着Internet的发展,一种面向服务的企业应用体系架构(Service‐Oriented Architecture)SOA应运而生。伴随而之,面向服务的软件也成为引领Internet的主流软件。然而,面向服务的
随着多媒体技术和网络信息的飞速发展,数字视频信息的数量成指数级增长,如何对其进行有效的存储、管理和检索,成为目前亟待解决的问题。视频摘要是解决以上问题的一个途径,同
在嵌入式系统中,内存资源极为宝贵。增大嵌入式设备的内存容量即意味着增加其成本、封装体积和功耗。此外,当今软件对于内存容量的需求正以每年50%-100%的速度增长,同时越来越多
人脸表情识别是人机交互领域中的一个重要课题,具有重要的理论研究意义和应用前景。实现计算机对人脸表情识别将增强计算机的智能化和人性化以及推动心理学等学科的发展,同时
社会经济的快速发展带来了全世界范围内的汽车保有量的迅速增加,同时伴随而来的还有不断增加的道路交通事故。让各国苦恼的就是在这些交通事故中,恶性交通事故发生率总是居高
作为一种新兴的商业计算模型,云计算实现了计算能力、存储空间和信息服务等像水、电、煤气一样可以由用户按需取用,灵活计费。云计算通过运用虚拟化技术,实现了对大量物理资源的