东盟地区英泰双语句子及段落对齐关键技术研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:zqlyn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国与东盟交流的不断深入,东盟各国的经济发展、网络安全和地缘安全态势逐渐引起了中国的重视。为方便研究人员对东盟网络舆情进行研究,需要建立东盟相关的平行语料库。东盟相关的平行语料库可以有效提升东盟各语言机器翻译、词义消歧以及跨语言实体对齐水平,提升小语种语言信息处理能力。跨语言句子对齐技术是建立东盟相关平行语料库的关键技术。由于东盟地区可供研究的高质量语料资源较少,缺少大量的平行数据进行模型训练;没有公共的评估数据集,难以对模型进行有效的评估;粒度的不同导致了对齐语料所使用的对齐技术也不尽相同。本文针对上述问题,以泰语为重点研究对象,对英语-泰语的句子对齐和段落对齐开展深入研究。论文的主要工作以及研究成果如下:针对英语-泰语跨语言句子对齐任务需要训练资源多,从网络上难以直接获取足量平行语料进行模型训练的问题,提出两种方法。一种通过跨语言词向量提供先验知识,并结合孪生神经网络的方式来得到跨语言句向量模型,另一种是通过知识蒸馏得到跨语言句向量,最后根据编码得到的句向量相似度判定不同语言的语句语意是否相似,这两种方法都在有限的语料数据下有效提升了句子对齐任务的精度。段落是多个在语义上有密切联系的句子集合,本文对段落对齐方案中通用的段向量方法做出了改进,提出了一种多特征的段落对齐方法。首先同时考虑段落特征句的选取方式与n-gram拼接,得到候选的特征句集合,再对特征句进行相似度计算,将特征句相似度最高所在的段落视为平行段落。相较于传统的编码方法,该方法有效地提高F1值约一个百分点。
其他文献
化学是一门实践性较强的学科,也是培养化工类专业人才的基础课程。课堂教学是高职教育的主要渠道,基于社会对化工人才能力要求的不断提升,高职院校必须围绕学生就业能力的提升实施有效教学。立足于多年工作实践,以高职化学课程的特性为切入点,分析影响高职化学课堂教学有效性的因素,并提出提升高职化学课堂教学有效性的具体策略,构建能推动高职教育高质量发展的教学体系。
期刊
研究目的评估2019版肾脏囊性病变(Cystic Renal Mass,CRM)Bosniak磁共振成像(magnetic resonance imaging,MRI)分类标准阅片者间一致性和重测信度,并比较2019版Bosniak MRI分类标准一致性和重测信度在不同经验阅片者间的差异。研究方法回顾性收集我院2009年1月至2018年12月完成常规肾脏MRI平扫及增强检查的207名CRM患者的2
学位
在智慧医疗中,电子病历(EMRs)会被频繁共享及使用,存在较大的数据窃取及隐私泄露风险。因此,EMRs的隐私保护是当下迫切需要解决的问题。密文策略属性基加密(CP-ABE)方案虽然可以同步实现EMRs的加密及访问控制,但大多数现存方案具有灵活性较差、仅支持布尔函数形式下的访问策略、用户一经授权便可解密获取文件的全部信息、只有加密方具备写入权限、解密方只具备读取权限等突出缺陷。因此,为了在共享EMR
学位
随着计算机软件和网络技术的高速发展,恶意软件已经成为影响网络安全的重要因素。为了增加网络安全研究人员的分析难度,恶意软件开发者不仅使用传统的布局混淆、数据混淆、控制流混淆和预防混淆等技术,而且更热衷于保护效果更好的O-LLVM(Obfuscator-LLVM)定制化代码混淆器。针对现有的O-LLVM反混淆方案在定制化混淆器中存在的局限性问题,本文对代码混淆、中间语言、模拟执行和污点分析等技术进行了
学位
随着人工智能和物联网的快速发展,以数据为基础的智能服务已经推广到多个应用领域。然而由于物联网环境的复杂性,传感设备在数据采集和传输的过程中可能会产生不完全传感数据流。不完全传感数据流将破坏数据集的完整性,进而影响了模型分析的准确性。此外,对一些需要实时数据流支撑的智能物联网服务而言,不完全传感数据流的存在会使这些服务陷入瘫痪的状态。因此,物联网环境下不完全数据流的补全是一个亟需解决的问题。本文主要
学位
种子是农业的“芯片”,是提升农产品竞争力的关键。满足市场需要,培育性状更加优良的品种,是诸多育种者的毕生追求。2022年3月1日起开始执行的新修订的《种子法》,聚焦提高植物新品种知识产权保护法治化水平,旨在平衡育种者、生产经营者及使用者之间的权利与义务,为种业创新与健康发展保驾护航。有别于其他作物,果树苗木大多可以通过无性繁殖的方式进行生产与推广,这也为果树新品种权的保护带来了挑战,在保护品种权人
期刊
目的 比较SF-36量表(the MOS 36-item short form health survey,SF-36量表)、SF-12量表(12-item short form survey,SF-12量表)以及欧洲五维健康量表(EuroQol five dimensions questionnaire,EQ-5D)在老年骨创伤术后患者生存质量中的评估结果差异。方法 本研究为横断面研究,运用SF
期刊
目的:观察中低位局部进展期直肠癌术前同期加量调强放疗联合希罗达化疗的临床可行性、安全性及疗效。方法:回顾分析2010年1月至2016年5月在解放军总医院第一医学中心放疗科诊断为c T2-4N+M0中低位直肠腺癌并接受术前新辅助放化疗的82例患者。新辅助放疗剂量分割模式为:直肠原发肿瘤及盆腔转移淋巴结(p GTV)照射50Gy/25次(2Gy/次)或56.25Gy/25次(2.25Gy/次)或58.
学位
目的心室内血流动力学是心肌做功的结果。本课题用MRI技术,研究在病因混杂的心脏疾病中左室形态功能参数与血流动力学参数,探索左室内血流动力学的表达和SKE曲线的临床意义。资料与方法纳入2015.01-2019.12解放军总医院第一医学中心完成心脏磁共振扫描的88例研究对象,包括未见异常和8种心肌病。采用Philips 1.5T Multiva磁共振扫描仪、8通道心脏相控阵线圈、呼吸门控以及心电触发。
学位
研究目的初步构建居家老年人跌倒风险综合评估与护理干预方案,研发居家老年人跌倒风险综合评估与护理干预系统,为居家老年人跌倒风险综合评估与护理干预提供新的手段和方法。研究方法1.文献回顾:回顾性分析、评价国内外老年人跌倒预防与干预相关指南,获得老年人跌倒风险评估与护理干预的最佳策略。在此基础上,拟定居家老年人跌倒风险综合评估与护理干预方案初稿。2.现场论证:选取老年医学科、内分泌科、风湿科、神经内科、
学位