融合主题及上下文特征的汉缅双语词汇抽取方法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户：sanmumuren

【摘要】

：

缅甸语属于低资源语言,网络中获取大规模的汉-缅双语词汇一定程度上可以缓解汉-缅机器翻译中面临句子级对齐语料匮乏的问题.为此,本文提出了一种融合主题及上下文特征的汉缅

【作者】

：

李越毛存礼余正涛高盛祥王振晗张亚飞

【机构】

：

昆明理工大学信息工程与自动化学院,昆明650500;昆明理工大学云南省人工智能重点实验室,昆明650500

【出处】

：

小型微型计算机系统

【发表日期】

：

2021年1期

【关键词】

：

汉缅双语词汇主题特征上下文特征 BERT 双语词向量

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

缅甸语属于低资源语言,网络中获取大规模的汉-缅双语词汇一定程度上可以缓解汉-缅机器翻译中面临句子级对齐语料匮乏的问题.为此,本文提出了一种融合主题及上下文特征的汉缅双语词汇抽取方法.首先利用LDA主题模型获取汉缅文档主题分布,并通过双语词向量表征将跨语言主题向量映射到共享的语义空间后抽取同一主题下相似度较高的词作为汉-缅双语候选词汇,然后基于BERT获取候选双语词汇相关上下文的词汇语义表征构建上下文向量,最后通过计算候选词的上下文向量的相似度对候选双语词汇进行加权得到质量更高的汉缅互译词汇.实验结果表明,相对于基于双语词典的方法和基于双语LDA+CBW的方法,本文提出的方法准确率上分别提升了11.07％和3.82％.

其他文献

镧和铬共掺杂的Sr2TiO4/SrTiO3异质结光催化剂产氢研究

　　近年来通过构建异相结、异质结、p-n结等来提高光催化产氢产氧活性已经引起了学术界的广泛关注。在前期工作的基础上,本文设计并原位合成了镧和铬共掺杂的Sr2TiO4/SrTiO3

会议

核岛受限空间焊接烟尘的净化研究与应用r──核岛反应堆厂房临时通风除尘除湿设计优化

核电站核岛反应堆厂房(安全壳)前期建造期间,设备和管道在焊接、打磨等施工活动中产生的烟尘含有大量有毒有害物质.主要为臭氧、一氧化碳、氮氧化物、氟化氢等,因其颗粒较小,

期刊

核岛反应堆厂房烟尘浓度临时通风除尘除湿

融合主题及上下文特征的汉缅双语词汇抽取方法

其他学术论文