基于词典的汉藏句子对齐研究与实现

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:clone111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为81.11%。
其他文献
分词是汉语自然语言处理研究中非常重要的一个环节,在早先的研究中,最大熵模型和条件随机场(CRF)模型已经广泛运用到汉语自动分词的工作中。最大间隔马尔可夫网(M3N)模型是近年来由
面向移动终端的统计机器翻译需求越来越多,但无浮点运算单元的处理器限制了翻译速度。该文提出了一种对统计机器翻译解码运算的定点化运算方法,缓解了无浮点运算单元的处理器
耐多药结核病(MDR-TB )是所有结核病中最为严重的一种类型,人类将因此在21世纪面临较20世纪50年代中叶更为严峻的结核病疫情.而在实际工作中,结核病临床和防治的专业人员也越
俗话说:"水能载舟,亦能覆舟".临床上常用的药物亦具有这种特性,使用得当它可以解除病人疾苦,造福人类,反之,它还可以引起严重的不良反应、甚至危及生命.如何预防或减轻这些不