论文部分内容阅读
缅语情感分析是开展缅语舆情分析、文本挖掘的基础工作。但是因为缅语中没有公开的人工标注的情感分析数据集,此项工作无法展开。而对于中文来说,已经有很多成熟的方法及资源,本文通过双语词向量以及双语句子向量的表征,将汉语情感分析资源及方法应用在缅语中,完成缅语的情感分析。(1)构建了汉-缅双语语料库。缅语为资源稀缺型语言,其稀缺性表现在,国内外公开语料和资料的缺失。而这些正是汉缅双语自然语言处理的基础,语料的作用至关重要,语料的质量影响后续研究及进一步实验的的进展及质量。在本文中,介绍了获取缅语语料的方法,缅语语料的来源和如何存储获得的语料,并在获取缅语语料的同时获取双语平行语料。(2)提出了融合缅语音节特征的缅甸语词向量表示方法。该缅语词向量训练模型针对缅语构词、语法的复杂性以及缅语训练语料少的情况,使用卷积神经网络(CNN)和门结构网络抽取缅语词中的音节特征,以缅语的最小构词粒度“音节”作为模型的输入。该模型不仅能解决常规词向量训练中,对生僻词以及未出现词的表征问题,而且本章模型对缅语语法的表征能力也更强。(3)提出了汉缅双语句子级embedding语义表征方法。为使缅语可以利用汉语在自然语言处理中丰富的资源及方法,利用语义空间映射的方式,将缅语词向量和汉语词向量通过最小化双语词典中互译词空间距离的方式,建立缅语到汉语的语义空间映射关系,通过迭代算法反复更新词典,得到最优的映射关系,得到汉缅双语词向量。将缅语句子中的词转为缅语词向量,并将缅语词向量映射到汉语语义空间中,得到汉缅双语的句子级表征。(4)提出了基于双语表示的缅甸语句子情感分类方法。先通过汉语大规模的标注数据预训练出在汉语情感分类中表现很好的模型,在缅语训练时将缅语映射到汉语的语义空间中,利用汉语的特征去弥补缅语特征不足的问题,将映射后的缅语送入模型进行再训练,通过新正则项的约束,使映射后小标注集的缅语数据的特征进行进一步的调整,得到缅语情感分类模型。(5)实现了缅语情感分类原型系统。结合本文的理论成果设计并实现了基于双语表示的缅甸语句子情感分类系统,该系统可以对缅语句子进行情感标记,补充缅语情感分类语料库。