藏文词向量的表示方法及评估研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:zhanagyuxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
藏文是我国的少数民族文字之一,在信息化时代,为了更好地理解少数民族语言,从而了解少数民族文化,促进以语言为基础的人工智能的发展,研究藏文自然语言处理是十分有必要的。词向量表示是各项自然语言处理任务的基础,好的词向量表示能够提高自然语言处理任务的效果。如今,中英文词向量的研究较为成熟并且开源的数据集较多;而对藏文词向量表示的研究还在起步阶段,并且也几乎没有开源的数据集。所以为了更好地让计算机理解藏文,将人工智能应用在少数民族语言,本文对基于藏文的词向量表示及其评估进行研究。首先,本文在基于Word2Vec模型的多基元联合训练藏文词向量的模型TC-CWE的基础上,结合藏文中词、字、构件组成的特点,提出了融合相对位置信息的TCCWE-P模型,进一步预训练的TCCWE-R模型,以及将TCCWE-P模型和TCCWE-R模型结合的TCCWE-PR模型;并且本文提出的模型与改进前的基础模型相比有不同程度的提升。其次,本文进一步提出了基于Doc2Vec模型上的TCCWE、TCCWE-R模型、TCCWE-P模型以及TCCWE-PR模型,并取得了更优的效果,实验表明添加了共享句向量的Doc2Vec模型更适合作为基础模型训练藏文词向量表示。再次,为了比较各词向量表示模型的语义表达能力,借助评测集对词向量表示模型进行内部评估。由于没有开源的藏文词向量评测集,本文还提出了人工构建藏文相似性评测集的方案,并使用构建后的藏文词向量评测集对训练的藏文词向量效果进行内部评估。评估结果表明基于CBOW模型的TCCWE-P-item模型的语义表达能力优于CBOW模型及基于CBOW模型的其他模型,基于Doc2Vec模型的TCCWE模型语义表达能力最佳。最后,为了更全面的比较各词向量表示的效果,通过具体的下游任务,对训练的词向量模型进行外部评估。本文比较了将训练词向量的语料与文本分类语料混合前后以及不同特征下文本分类效果,结果显示语料混合后、词向量作为文本特征以及TextRCNN模型进行文本分类任务训练时的效果最佳;本文选取效果最好的TextRCNN模型对不同改进下的藏文词向量模型进行了外部评估,结果表明基于Doc2Vec模型中的PV-DM模型训练的TCCWE模型下的文本分类精度最高,TCCWE-PR-char模型精度提升得最多。
其他文献
系统运行不仅会受内部故障影响,很多时候还会受到来自外部的恶意攻击,这直接影响到系统的可靠性。投票系统容错性高,决策力强,已被广泛应用到诸多领域。本文主要针对遭受多次恶意攻击的投票系统的可靠性进行研究并给出相应的最优策略,这里的可靠性是指系统对于输入的命题能做出正确决策的概率。本文讨论了一个由多种组件(普通组件,升级组件和伪装组件)组成的多数投票系统的可靠性,着重关注的最优策略是针对不同类型组件的数
学位
随着信息科学技术的快速发展,商业银行之间的竞争变得越来越激烈。一方面,在信息公开透明的互联网时代,消费者可以快速获取金融产品和服务信息并以此为基础优化购买策略,从而可能导致某银行以往的部分客户流向其他银行。另一方面,消费者的个性化需求也可能会导致银行客户流失现象的发生。为了尽可能的减少客户流失,可以利用银行过往客户的信息进行预测分析,使得银行管理者在后续工作中能有针对性的完善客户服务。本文运用数据
学位
皮肤镜图像中,由于毛发造成的遮挡,严重影响了皮肤病变的诊断操作和分析准确性。真皮毛发有以下不同的特点:细薄;重叠;浅色调;形状各异,长短不一;与底层皮肤或病变纹理有相似的对比度或颜色;以及遮盖或覆盖病变的纹理。毛发的这些复杂特征使得毛发数字去除(DHR)成为一项极具挑战性的任务,该任务涉及到毛发的分割和毛发间隙的修复。基于传统的硬编码阈值毛发去除方法泛化能力差,导致过度去除毛发,从而失去了皮肤病变
学位
测试是贯穿数字集成电路(Digital Integrated Circuit,Digital IC)整个生命周期的核心环节。可靠的测试技术有助于缩短开发周期,提高产品的良率和减少开发成本。然而,随着集成电路的制造工艺不断进步和发展,单一电路的规模越来越大,电路的内部结构也越加复杂。这给测试带来了新的挑战。基于这种情况,结合新兴技术对集成电路测试方法进行优化升级已成为行业的热点。自动测试向量生成(A
学位
髋关节发育不良是婴幼儿较为常见的骨科疾病之一,患病初期及时的诊断和治疗能够有效矫正关节畸形,避免留下终身残疾。基于X-Ray图像的骨盆正位片诊断是髋关节发育情况诊断的主要方式之一,医学解剖学相关关键点的检测是该诊断方法的关键步骤。然而,在该诊断方法中,骨关节钙化过程中的多样性和脱位畸形等因素导致关键点的检测是一项具有挑战性的任务。一般来说,X-Ray图像中的医学解剖学关键点在局部区域表现出稳定的形
学位
股票市场作为企业筹集资金、公众投资获利的重要场所,吸引了各界人士的目光,股价预测方法也喷涌而出。而股票数据是非平稳、高噪声、波动性强的序列,其数据的复杂性和不确定性使得经典统计模型在股价预测中日渐式微。随着机器学习的发展,研究发现深度学习能更好捕捉股票数据信息,所以本文从深度学习出发,基于LSTM,构建基于注意力机制的双向长短期记忆网络(AM-BiLSTM)模型来预测沪深300指数价格。针对一般模
学位
电影艺术作为一种视觉性很强的现代传媒形式,其产生与发展都离不开对媒介技术的研究和探索。当前电影艺术已进入媒介融合的新时代,随着媒介环境变化和新技术的革新,电影早已诞生出各种新的形式,如互动电影、VR电影、DV电影等。作为用数字桌面为载体进行跨媒介叙事的桌面电影,已成为电影与数字媒介融合的最佳例证。本文追溯桌面电影诞生的渊源,分析桌面电影不同于一般电影的视听语言与创作特征,并内含于当前媒介融合的环境
学位
在监控系统智能化以前,通常使用人工识别来检索监控系统中的行人目标。但是,随着安防产业在城市中的广泛普及,监控系统的重要性日益突出,监控摄像头的数量也在不断增加,人工识别的检索性能已经难以满足城市监控系统的海量数据处理,这给监控系统的检测工作带来了艰巨的挑战。除了需要大量的人力成本之外,人工识别会使目标搜索的准确度偏低,从而导致错误的人像检索或者遗漏人像的检索。因此,人工智能辅助行人重识别的研究也有
学位
臭氧污染越严重,对人群健康和植被造成的危害就越大。建立有效的臭氧预测可以为臭氧防治提供数据支持,以帮助减轻臭氧污染造成的危害。因此,本文提出基于WOAVMD分解和不同智能优化算法的SVR非线性集成方法,旨在建立性能更好的臭氧预测模型。查阅文献发现,分解集成方法被广泛地应用在大气污染预测领域。针对当前线性加和集成的不足,本文提出基于GWO-SVR和PSO-SVR的集成模型对城市臭氧的动态趋势进行预测
学位
在通信系统的领域,信道编码常用于提高通信系统的性能,其中,Turbo乘积码(TPC)是目前通信系统常用的一种前向纠错码,它兼具性能优异、码字结构灵活简单、译码复杂度低等特点,得到实际工程的采用,同时亦是国内外通信领域学者的研究热点。目前受到广泛研究的TPC译码算法为Chase-Ⅱ算法,该算法译码性能优良的优点,但在生成测试图样时牵涉到大量的排序筛选运算,产生的高复杂度问题导致该算法在工程领域上不利
学位