论文部分内容阅读
语言单元的向量表示是机器学习的基础性工作,其目标是以优化的向量表示语言单元,以便计算机能够更好地理解自然语言。近年来,随着神经网络技术的发展,向量表示在自然语言处理领域发挥了重要的作用。英、汉等语言的词、句子和文档表示取得了丰硕成果,并得到了广泛应用。藏文语言单元的向量表示技术处于探索和起步阶段,其研究对藏语语言的特征分析以及用深度学习技术处理藏语言具有重要的理论意义和广泛的应用价值。本文借鉴英、汉等语言的词向量表示技术,结合藏文的特点,从藏文字构件分解、藏文文本分词、藏文词向量评测和藏文词向量表示等四个方面研究了藏文词向量表示的关键技术。主要工作包括:(1)藏文字构件分解构件是藏文的最小组成单元,蕴含着丰富的词义信息,而藏文字输入到计算机中是一个整体。若要获取构件的词义信息,需要将整体藏文字分解为构件。本文归纳总结了藏文字的结构及构字原则,并对藏文字形进行分类。在此基础上,设计了藏文字构件分解模型和算法,以藏文字形分布统计为例,验证了字构件分解算法的有效性,得到了藏文字形的一般性分布规律。(2)藏文文本分词词是自然语言处理中最基本的处理单元,藏文文本是字的序列,词和词之间没有分隔标记,因而需要文本分词。本文通过分析藏文文本分词的现状,针对藏文文本分词中存在的主要问题,提出了基于规则的句分块、块切词的分词方案。句分块方面,设计了基于临界库的藏文句分块算法。块切词方面,分析了主词典库的构造方法,并设计了索引查询算法、紧缩词识别还原算法、多策略紧缩格识别算法、未登录词识别的一揽子算法和歧义消解的局部高词频优先算法。(3)藏文词向量评测词向量评测的目标是评价词向量模型的性能,包括内部任务评测和外部任务评测。内部任务评测通过词相似度、相关性和类比评测集等评价向量模型的性能,是一种广泛使用的词向量评测方式。由于藏文词向量研究处于探索起步阶段,还没有用于评价藏文词向量性能的评测集。本文借鉴英、汉文词向量评测集构建方法,设计了藏文词向量相似度和相关性任务评测集构建方案,依据此方案建立了藏文词相似度评测集TWordSim215和相关性评测集TWordRe]215,并验证了其有效性。(4)藏文词向量表示传统神经网络中,词作为原子对象建立基于上下文信息的词向量表示。融合子词级别的信息能更好地捕捉词义,本文结合藏文的特点,提出了基于构件的藏文向量模型、融合构件和字信息的藏文词向量表示模型。基于构件的藏文向量模型以字、词的构件信息建立向量,能够较好地揭示构件的位置特征及添加规则,在藏文字拼写检查上取得了良好的效果。融合构件和字信息的藏文词向量表示模型,将构件和字及其位置信息融入到词向量表示中,在性能上比传统方法有了显著的提升。