基于神经网络的汉缅双语句子级Embedding语义表征方法应用研究

来源 :昆明理工大学 | 被引量 : 1次 | 上传用户:huai0407
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缅语情感分析是开展缅语舆情分析、文本挖掘的基础工作。但是因为缅语中没有公开的人工标注的情感分析数据集,此项工作无法展开。而对于中文来说,已经有很多成熟的方法及资源,本文通过双语词向量以及双语句子向量的表征,将汉语情感分析资源及方法应用在缅语中,完成缅语的情感分析。(1)构建了汉-缅双语语料库。缅语为资源稀缺型语言,其稀缺性表现在,国内外公开语料和资料的缺失。而这些正是汉缅双语自然语言处理的基础,语料的作用至关重要,语料的质量影响后续研究及进一步实验的的进展及质量。在本文中,介绍了获取缅语语料的方法,缅语语料的来源和如何存储获得的语料,并在获取缅语语料的同时获取双语平行语料。(2)提出了融合缅语音节特征的缅甸语词向量表示方法。该缅语词向量训练模型针对缅语构词、语法的复杂性以及缅语训练语料少的情况,使用卷积神经网络(CNN)和门结构网络抽取缅语词中的音节特征,以缅语的最小构词粒度“音节”作为模型的输入。该模型不仅能解决常规词向量训练中,对生僻词以及未出现词的表征问题,而且本章模型对缅语语法的表征能力也更强。(3)提出了汉缅双语句子级embedding语义表征方法。为使缅语可以利用汉语在自然语言处理中丰富的资源及方法,利用语义空间映射的方式,将缅语词向量和汉语词向量通过最小化双语词典中互译词空间距离的方式,建立缅语到汉语的语义空间映射关系,通过迭代算法反复更新词典,得到最优的映射关系,得到汉缅双语词向量。将缅语句子中的词转为缅语词向量,并将缅语词向量映射到汉语语义空间中,得到汉缅双语的句子级表征。(4)提出了基于双语表示的缅甸语句子情感分类方法。先通过汉语大规模的标注数据预训练出在汉语情感分类中表现很好的模型,在缅语训练时将缅语映射到汉语的语义空间中,利用汉语的特征去弥补缅语特征不足的问题,将映射后的缅语送入模型进行再训练,通过新正则项的约束,使映射后小标注集的缅语数据的特征进行进一步的调整,得到缅语情感分类模型。(5)实现了缅语情感分类原型系统。结合本文的理论成果设计并实现了基于双语表示的缅甸语句子情感分类系统,该系统可以对缅语句子进行情感标记,补充缅语情感分类语料库。
其他文献
在党的十六届三中全会上,新的党中央领导集体对宪法作为国家的根本大法在建设社会主义法制中的积极作用给予了充分肯定,并根据党的十六大精神,提出了“关于修改宪法部分内容
为研究宣恩火腿加工过程中理化特性的变化规律,以宣恩火腿加工过程中原料(鲜腿)、腌制期、发酵初期、发酵中期、发酵末期、成品6个工艺点的火腿为原料,检测其股二头肌中水分、
优化人才培养模式是公安高校长期以来共同探索的一个热点问题。随着社会主义市场经济体制的建立和发展 ,尤其是 2 1世纪知识经济时代的即将来临 ,一种新的以素质教育为中心的
目的:Resiquimod(R848)是一种Toll-like receptor7/8(TLR7/8)激动剂,目前研究表明R848具有抑制2型免疫的巨大潜能,但具体作用机制尚未十分清楚。本实验研究R848对卵清蛋(oval
学习者在外语学习的过程中经常会出现语言错误,这个问题不可避免,因此受到了语言学、心理认知学和语言教学法等各界学者的研究和关注,同时这也是所有外语教师面临的实际问题
生命课堂关注生命存在,旨在改善师生的课堂生活质量和提升师生的生命价值。它能被人们广泛认同并得到大力提倡是有其理论基础的。本文试从哲学、心理学、社会学、生态学视角对
一冰的文章为我们讲述了一个令人深思的故事,生动、形象,但绝非危言耸听。“用工荒”发端于珠三角、长三角,迅速蔓延至全国各地,物流业是受其影响较严重的一个行业。曾几何时,庞大
广播电视预警信息发布系统,是广电行业内快速发布安全播出预警信息的全国性系统,目前,在全国范围内已经建立了以国家广电总局为中心,三十一个省级分中心,覆盖全国的广播电视
目的以年龄、性别为分组标准,分析髋部骨密度与髋部骨折风险的关系。方法选择本院收治的100例髋骨骨折的患者作为研究样本,将患者分为A组和B组。对两组患者进行骨密度的测量,
塑料行业随着我国国民经济持续高速发展已逐步发展壮大,自上世纪90年代以来,塑料行业一直保持在10%以上的增长速度,已成为轻工业的支柱产业之一。目前塑料行业发展备受重视,