基于trigger对的长距离蒙古语语言模型的研究

来源 :内蒙古大学 | 被引量 : 6次 | 上传用户:Yeah12345678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言模型(Language Model)是描述自然语言内在规律的数学模型,在机器翻译、语音识别、文字处理、信息检索等领域中占据着十分重要的地位。一个可靠的语言模型对于提高机器翻译系统的识别率起重要的作用。蒙古语是世界范围内有影响的民族语言,在中国许多地区广为使用。蒙古语语言模型技术在蒙古文信息处理系统中的集成和应用技术虽有了一定的发展,但主要是使用汉语、英语等语言的技术,而没有针对蒙古语本身进行大量的研究。本文结合语言模型技术方面的研究成果,将进一步探索蒙古语特点,通过增强蒙古语语言模型的性能来提高汉-蒙机器翻译系统的识别率。本文对语言模型的相关技术进行了探讨;对蒙古语语言特点进行了分析;对trigger对特点进行了分析;针对蒙古语特点结合trigger对进行长距离蒙古语语言模型设计;对平滑技术进行了分析;针对trigger的特点设计相应的KATZ平滑算法;将以上理论部分在汉-蒙机器翻译系统中进行实验。从实验结果看,基于trigger对的长距离蒙古语语言模型有较好的性能,得到了令人满意的翻译结果:在翻译节点数为300情况下bleu得分从原来的0.1761提高到0.2234;在翻译节点数为1000情况下bleu得分从原来的0.1873提高到0.2325。
其他文献
移动CSCW以其在任何时间任何地点都可工作的工作模式迅速引起关注并快速的发展。特别近几年来,无线通信技术和移动计算技术的发展,尤其3G(第三代数字通信技术,3rd Generation
随着计算机系统的广泛应用和Internet技术的飞速发展,现代企业的运营对于信息技术的依赖程度日益增强,特别是,各类数据已经成为企业正常运作的重要基础。数据容灾在这种大背
随着计算机、网络、以及多媒体技术的迅猛发展,图像处理技术的研究与应用尤其是音视频编解码技术引起了更广泛的关注。同时,嵌入式系统继计算机网络技术之后成为IT领域又一个
中文分词技术属于自然语言处理技术范畴,它是中文信息处理中的一个重要环节,是中文语言理解、文献检索、机械翻译以及语言合成系统中最基本的一部分。对于中文搜索引擎而言,
随着医疗信息化进程的不断发展,健康数据资料日益累积,传统医疗健康行业逐步迈入大数据时代。对健康大数据进行分析处理,不仅可以提供疾病预测、辅助诊断、决策支持,还能实现
近年来,物流产业飞速发展,更有效的配置物流资源以及更合理的个性化服务是提高物流产业竞争力的关键因素。这样首先要解决数据异构问题,然后针对不同的需求匹配相应的服务,达
移动Ad hoc网络是一种不依赖与固定设施的、自组织的无线网络,其组网方便、快捷,不受时间和空间的限制,既可应用于救援、会议、战场、探险或危险环境中的目标监控等场合,又可用于
大量计算机应用对于存储规模和性能的迫切要求导致基于商业化部件的存储集群系统产生和发展。存储集群将每个存储设备作为一个存储节点,所有的节点通过高速互联网络连接起来
远程镜像又叫远程复制,是容灾备份的核心技术,同时也是保持远程数据同步和实现灾难恢复的基础。它利用物理位置上分离的存储设备所具备的远程数据连接功能,在远程维护一套数
随着网际网络的快速发展,Web生活与人们的日常生活休戚相关。然而网路环境复杂多变,用户的讯息很容易被截获和复制。认证用户身份的合法性,保护用户敏感数据隐秘性,将倍受关