【摘 要】
:
跨语言词向量表示旨在为不同语言语料库单独训练的词向量提供公共表示空间,在该空间中不同语言中语义相似的词尽可能接近。通过跨语言词向量表示,可将在资源丰富的源语言训练的模型或知识,迁移到资源匮乏的目标语言上。该问题的研究对于解决小语种因数据资源匮乏导致自然语言处理模型不好的问题具有重要的研究意义。近年来,学者们在跨语言词向量表示研究上取得了巨大的进步。但仍存在诸多不足,主要表现在形态学和词源学差异大的
【基金项目】
:
国家重点研发计划“大数据知识工程基础理论及其应用研究”(2016YFB1000901); 国家自然科学基金“面向短文本数据流的多标记分类方法研究”(61976077);
论文部分内容阅读
跨语言词向量表示旨在为不同语言语料库单独训练的词向量提供公共表示空间,在该空间中不同语言中语义相似的词尽可能接近。通过跨语言词向量表示,可将在资源丰富的源语言训练的模型或知识,迁移到资源匮乏的目标语言上。该问题的研究对于解决小语种因数据资源匮乏导致自然语言处理模型不好的问题具有重要的研究意义。近年来,学者们在跨语言词向量表示研究上取得了巨大的进步。但仍存在诸多不足,主要表现在形态学和词源学差异大的远距离语言对(比如,英语-奥罗莫语)的质量仍有待提高。本文重点研究远距离语言对,从降低种子字典的依赖性和提升自学习训练中预对齐种子字典质量两个方面来提高跨语言词向量表示方法在远距离语言对的质量。主要工作内容如下:(1)针对远距离语言对同构假设不成立和依赖大量种子字典数据的问题,提出一种远距离语言对的半监督跨语言词向量表示方法。首先利用自动编码器将源和目标语言词向量空间映射到不同隐变量空间中,以缓解同构假设不成立的约束。然后,利用少量的种子字典初始化对抗网络的生成器,诱导模型进行粗对齐。在对抗训练过程中,模型可利用大量未对齐的词向量扩大种子词典的数量,并优化种子字典之间的距离实现更精确的对齐。通过在10个远距离语言对和3个近距离语言对上进行实验证明本方法的有效性。(2)针对当前跨语言词向量表示自学习训练过程中产生噪音种子字典的问题,提出一种带过滤机制的自学习训练框架。本方法的关键是引入各语言自身携带且广泛存在的词释义字典。通过计算不同语言词之间的词释义字典相似度来过滤预对齐中字典非语义相关的噪音翻译对。另外,在翻译词检索过程中,提出利用词释义信息对基于词向量相似度获得的候选翻译对进行重排序。实验表明,本方法可作为一个通用的自学习框架与现有的(包括有监督,半监督,无监督)跨语言词向量表示方法结合,能够进一步提高现有方法的质量。
其他文献
小样本学习旨在训练一个具有良好泛化性能的模型,在样本数量极少时仍具有良好的分类效果。小样本学习方法主要包括数据增强、元学习、多模态融合以及度量学习四类方法。大多数度量学习的模型仅仅关注图像实例级别或者类级别的特征,却忽视了图像的局部细节特征。近年来,许多基于局部描述子的度量网络充分考虑了图片像素级别的局部细节特征,但仍然存在着局部描述子之间缺乏关联性以及分类器易受局部噪声干扰的问题,因此本文对基于
铁路道岔是一种使机车从一股道转入另一股道的线路连接设备,列车行驶中出现的挤岔、脱轨事故多由驾驶员对道岔状态的错误判断引起。因此利用计算机视觉实现道岔场景的准确识别对列车无人行驶和铁路运输智能化发展具有重要意义。传统的铁路道岔分类算法受制于铁路环境复杂等原因,在分类速度和准确度方面不尽人意;而基于深度学习的铁路道岔分类模型一般在高能见度条件下进行大量数据标注和训练,虽克服了人工特征提取的弊端,但是在
随着深度学习和计算机视觉的高速发展,人们越来越需要深入理解图像。人-物交互检测是计算机视觉领域继目标检测、场景分割和目标追踪后的又一基础任务,该项任务的目标是定位并且推理图像中人与其周围物体的交互关系,对理解人类行为至关重要。人-物交互检测的难点主要在于机器无法知道人具体和哪些物体存在交互关系,现有方法常常对大量非交互对也进行了推理。此外,现有方法常常受到训练样本长尾分布的影响而损失检测效果。针对
随着人们生活水平的提高,能源需求消耗急剧增长。准确的能源消耗预测可以帮助相关部门制定合理的能源生产计划,积极响应节能减排、可持续发展的理念。能源消耗数据包含复杂的时间关系和特征关系,传统的预测方法如自回归模型和高斯过程很难捕捉到这些关系。深度学习兴起后,循环神经网络(Recurrent Neural Network,RNN)广泛用于能源消耗预测的研究。但是,当能源消耗数据的序列足够长时,RNN会出
三角网格是计算机图形学中用于为各种不规则物体建立模型的一种数据结构。通过如扫描仪等辅助设备扫描或图像生成的三角网格模型存在不同程度的噪声问题。噪声去除是研究和处理三角网格模型的重要前序工作,带有噪声的模型会对研究产生数据上的计算误差。目前网格去噪的主要手段是通过对三角网格面片法向量进行修正进而调整网格位置而完成噪声的去除工作。近几十年,三角网格去噪技术进一步发展,对于扫描和图像生成模型的处理工作有
随着计算机视觉技术的发展和人们生活水平的提升,高分辨率、宽视角的图像越来越受大众重视和追求。图像拼接可通过软件实现这一需求,为人们提供了经济有效的技术手段。目前,图像拼接技术在视频监控、无人机飞行、VR、森林防火、深海探索等领域被广泛应用。特别是在视频监控领域,在监控界面和人员精力有限的情况下,图像拼接技术直接有效地扩充了监控区域,增强了环境监控能力。传统图像拼接算法运行较为耗时,选取的特征点较为
近年来,宫颈癌严重威胁着全球成年女性的生命健康问题。宫颈癌作为最常见的妇科恶性肿瘤之一,也是世界上女性最常见的第四种癌症。如果能在早期发现宫颈癌,则可以有效治愈,因此定期宫颈癌筛查可以显著降低宫颈癌的发病率以及死亡率。宫颈细胞学检查是预防和发现早期宫颈癌最常见的筛查手段之一。病理医生需要在显微镜下观察涂片上的细胞识别出病变细胞,凭借经验做出诊断。这种筛查方式工作量巨大,因此计算机辅助宫颈细胞学筛查
供水管网作为城市基础服务设施的重要组成部分,运用可视化技术去分析其产生的海量数据很有意义。得益于如今社会对水务企业数字化转型的重视,相关水务部门积累了大量的供水管网数据,这些数据具备时空、多源异构的复杂特征,对其进行分析具有很大的挑战性。针对传统可视化方法在展示供水管网数据的时空多维特性时表现出来的局限性,本文首先总结归纳了城市时空数据和供水管网分析方法,然后基于供水管网显著的空间和多维特性分析了
交通标志作为交通信息的重要组成方式,包括了车道限速标志,车道方向标志以及车道警示提示等交通信息交通标志,已经成为了无人驾驶技术重要的组成部分,针对交通标志的识别研究受到了人们的关注。交通标志可以辅助驾驶员减少驾驶过程当中的压力,降低交通事故发生的概率也是辅助驾驶系统的核心要素,随着科技的进步和发展,针对交通道路标志的识别研究,提出了更高的精度和效率要求。本文通过基于深度学习的方式来对路标识别问题进
时序结构是视频行为识别中的关键信息,描述了视频帧序列之间的逻辑关系。目前的方法通常使用时序卷积或三维卷积直接学习短期时序结构,并通过卷积的堆叠间接地学习长期时序结构。然而,重复的局部卷积操作计算效率不高,间接的多跳依赖建模在网络优化过程中很难实现,因此学习到的长期时序结构不够准确完整。故本文对视频中行为的长时序结构进行研究,具体工作如下:(1)针对目前卷积所构建的模块一次只能处理一个局部邻域的问题