基于双语对齐的汉文-新蒙古文命名实体翻译技术研究

来源 :内蒙古大学 | 被引量 : 4次 | 上传用户:w56382955
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于统计机器翻译而言,命名实体的识别及实体的翻译是影响其性能的重要因素。目前专门针对新蒙文命名实体识别的研究较少且多采用基于规则的方法;这种方法需要人工标注新蒙文语料、撰写规则;耗时长且难以覆盖所有的命名实体现象。针对上述问题,本文提出了一种自动地从汉文-新蒙文平行句对中抽取命名实体对的方法。本文实现了基于CRF的汉文命名实体识别。对其中的关键性问题:识别粒度大小的确定、特征的选取进行了充分的实验。得出了基于字的识别效果更优;找出了对命名实体识别非常有意义的各类特征:基于上下文的字特征、分词以及词性特征、各类实体前后缀字特征等;最后得到了一个识别性能较优的模型。对汉文中实体类命名实体识别的平均F值为91.67。本文提出了汉文-新蒙文命名实体翻译框架,采用了非对称的汉文-新蒙文命名实体对齐策略,对汉文端进行命名实体识别后,从汉文-新蒙文词对齐结果中用滑动窗的方法抽取出候选的汉文-新蒙文命名实体对。然后利用从语料中得到的词对齐一致性特征、命名实体对翻译概率特征以及语言模型特征对候选翻译对进行置信度估计,选取置信度最高的候选翻译对确定为我们最终的抽取结果。抽取到的汉文-新蒙古文命名实体对的正确率为81.54%。
其他文献
频域光学相干层析视网膜图像SDOCT(Spectral Domain Optical CoherenceTomography)在现代医学中起到了重要的作用。视网膜层的精确分割是对视网膜医学图像分析的基础,本文在三
随着IT技术的迅速发展与网络技术应用的日益普及,当今的社会对IT技术的依赖性和重视程度越来越高。IT技术为各个单位的业务操作提供了一种崭新的选择,它大大提高了单位的办公
近年来,随着互联网和多媒体技术的快速发展,各种形式的多媒体作品得以通过网络向外发布或下载,这给人们的工作和生活带来了极大的方便,但同时也带来了负面影响,使得对原始作
长期以来,由于客观条件限制及经济利益驱使,铁路货车超载(或欠载)、偏载现象严重,造成车辆设备损伤,大大降低使用寿命,甚至危及行车安全。在运行中及时发现和防止设备故障的发生或扩大,并采取相应的措施,成为目前保证列车运行安全急需解决的问题。因此,采用新技术、新装备、新方法,对货车超偏载情况进行准确测量,才能确保客车安全运行和旅客人身安全。为此,我所成立课题组研制了智能型铁道车辆轮重测定仪。轮重测定仪是
云计算在网页搜索、数据挖掘等大规模数据处理方面正变得越来越重要,Hadoop作为一个开源的云计算平台也得到了广泛的应用。作业调度算法是Hadoop平台的核心,良好的作业调度算
车牌识别技术是一项日渐成熟的技术。目前,大多数国家和地区都有自己的车牌识别系统,而且它们的识别率也很高,但交通系统不断复杂和所处环境的不确定,对车牌识别技术提出了更
随着社会的发展以及技术的进步,人们对快速高效的自动人脸识别的要求日益迫切。生物特征由于是人的内在属性,具有很强的自身稳定性和个体差异性,在科研领域内得到了极大的重
随着信息技术的迅猛发展和网络化时代的到来,各种各样的Web应用系统高频率的出现在我们的日常生活、工作和学习中。对于多并发的Web应用系统,其状态图的规模是以并发数指数级增
计算机网络技术和通信技术的迅猛发展,极大地促进了多媒体应用的普及。多媒体应用与传统数据型应用相比,集成了各种不同性质的媒体,特别是近几年出现的多种新型业务,如IP电话
随着互联网技术的发展和人们对电子办公、电子商务等的依赖,信息安全问题显得愈发重要。用户每天需要登录到许多不同的信息系统。每个系统都要求用户遵循一定的安全策略,比如