层次短语翻译模型的实现与分析

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:join20102010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计机器翻译是当今机器翻译的主流方法,这可能由于很多原因,比如准确性,可扩展性,计算效率高,能够快速移植到新的语言对和领域等等。然而,现在的统计机器翻译方法产生的翻译结果经常不满足句法,而且不能很好的处理长距离的调序问题。最近,统计机器翻译研究工作者开始关注有更多语言学信息启发的翻译模型,主要包括同步上下文无关文法模型和树到串的树转录机模型。首先,本文对基于上下文无关文法的层次短语翻译模型进行了较为全面的研究,并实现了层次短语翻译模型的系统。考虑到层次短语翻译模型本身固有的复杂性,我们在实现层次短语翻译模型时使用了高效的算法和数据结构。同时,注意到层次短语翻译模型是基于句法的翻译模型的基础和原型,层次短语翻译系统的设计具有较高的可扩展性。其次,我们对层次短语翻译模型进行了实证分析。考虑了层次短语翻译模型的三个主要方面。第一,我们加入句法完整性对原有的参数估计方法进行扩展,提出了考虑句法信息的有指导的参数估计方法。第二,我们使用简单分类方法和基于模式的分类方法对层次短语规则进行了分类。第三,我们对层次短语抽取规则算法进行了一系列的限制。同时,我们对这些实验结果进行了比较细致的分析。最后,我们对层次短语翻译模型和短语翻译模型,层次短语翻译模型和基于句法的翻译模型进行了对比分析。我们先通过Moses系统和层次短语翻译系统的实验对比分析这两种模型的内在性质,然后比较了树到串的转录机规则和层次短语规则。通过这些比较得出结论,层次短语翻译模型并没有完全发挥同步上下文无关文法的优势,为了进一步提供统计机器翻译的性能可以尝试扩展层次短语翻译模型形式文法扩展为具有语言学意义的文法,同时以更系统的方式在模型中增加更多上下文。
其他文献
随着Windows操作系统在可靠性方面的不断完善以及其良好的用户界面,此操作系统以及其之上的软件产品应用到社会的各个领域,人们对软件的性能和可靠性有了更高的要求。软件产
物联网技术在各行各业应用越来越广泛,对物联网技术的研究也越来越多。随着物联网技术中硬件和软件的广泛应用,安全问题也日益突出。对消息传递中的通信主体进行身份验证,对
业务的快速增长和行业间竞争的加剧,使得如何提高服务质量并降低生产成本成为电信行业发展的关键。由早期基础建设管理和规划的不完善所导致的信息孤岛等问题,使得管理层无法
近年来,无线局域网(WLAN)以其安装便捷、使用灵活等优势,得到了大规模的部署。WLAN上承载的业务也覆盖了从标准互联网业务到实时业务的范围。实时业务对服务质量(QoS)有较高的
中文问句中,疑问词与中心词揭示了问句的大部分信息,因此,在中文问句处理中,识别疑问词与中心词变得尤为重要。由于中文的疑问词相对固定,数量也不多,故疑问词的识别准确率很
随着Internet网络的不断发展,消费者通过商家的网站、网络论坛、BBS以及Blog发表关于各种产品的评论信息。商家、厂家可以通过分析这些评论信息获取反馈意见;消费者可以通过
为适应电信网技术飞速发展和名目繁多的电信新业务的需要,ITU-T(International Telecommunication Union-Telecommunication Sector,国际电信联盟-电信标准局)提出了对电信网
XML在许多应用中已经成为数据交换的标准。然而,XML数据的自描述特性和半结构化特性使得XML数据中存在大量的数据冗余,这使得人们在获得XML数据带来的灵活性的同时不得不忍受
数据挖掘是从海量的数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则。聚类分析是数据挖掘领域中的一个重要研究课题。所谓聚类是将物理或抽象的集合分组成为
随着基因组学和蛋白质组学相关技术的发展,产生了大量的表达谱和生物大分子相互作用的网络图谱信息。生物信息学为储存、处理、分析和整合这些海量数据提供了强有力的技术支持