融合主题及上下文特征的汉缅双语词汇抽取方法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:sanmumuren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缅甸语属于低资源语言,网络中获取大规模的汉-缅双语词汇一定程度上可以缓解汉-缅机器翻译中面临句子级对齐语料匮乏的问题.为此,本文提出了一种融合主题及上下文特征的汉缅双语词汇抽取方法.首先利用LDA主题模型获取汉缅文档主题分布,并通过双语词向量表征将跨语言主题向量映射到共享的语义空间后抽取同一主题下相似度较高的词作为汉-缅双语候选词汇,然后基于BERT获取候选双语词汇相关上下文的词汇语义表征构建上下文向量,最后通过计算候选词的上下文向量的相似度对候选双语词汇进行加权得到质量更高的汉缅互译词汇.实验结果表明,相对于基于双语词典的方法和基于双语LDA+CBW的方法,本文提出的方法准确率上分别提升了11.07%和3.82%.
其他文献
  近年来通过构建异相结、异质结、p-n结等来提高光催化产氢产氧活性已经引起了学术界的广泛关注。在前期工作的基础上,本文设计并原位合成了镧和铬共掺杂的Sr2TiO4/SrTiO3
会议
核电站核岛反应堆厂房(安全壳)前期建造期间,设备和管道在焊接、打磨等施工活动中产生的烟尘含有大量有毒有害物质.主要为臭氧、一氧化碳、氮氧化物、氟化氢等,因其颗粒较小,