论文部分内容阅读
词义消歧是词语语义分析的重要内容,也是整个自然语言处理研究中的一个值得关注的问题,对机器翻译、信息检索、舆情监测等各项高层应用提供有力的支持。藏文自然语言处理应用需求的不断提高,要求作为基础关键技术的词义消歧技术必需得到充分发展,但受限于藏文信息处理研究现状,藏文词语消歧研究依然处于起步阶段。词义消歧研究方法可以分为统计方法和规则方法两类。基于统计的方法包括有监督和无监督两类方法,有监督方法需要具有一定规模的带词义标注的语料库支持,无监督方法需要大规模语料库作为支撑材料。根据当前藏文信息处理进展,带词义标注的语料库和无标注语料库的获取都非常困难。基于语义知识库的方法从基于规则方法衍生而来,在英语中已逐渐开始用机器学习方法获取知识,是词义消歧研究最具活力的研究方向之一,且在英语和汉语等语言的词义消歧研究中被证明有效。鉴于以上原因,本文提出将语义知识库HowNet与藏汉平行语料库结合,利用HowNet提供的语义知识和藏汉平行语料库提供的藏汉对译信息,为藏汉平行语料库藏语句子中歧义词汇选择合适汉语义项的方法,以此初步构建带有词义标注信息的藏汉平行语料库。本文主要做了如下工作:1)改进词语相似度计算方法:在传统使用义原语义距离计算相似度方法基础上,将最低公共父节点高度与义原层次高度差融入计算方法中。同时提出一种建立在HowNet语义角色上的辅助性相关度计算方法。2)结合藏汉平行语料库与HowNet研究藏文词义消歧方法:该方法的主要步骤是:在对语料进行分词和词性标注等预处理后,通过藏汉词典为藏文语料中词汇收集汉语义项,确定歧义词汇;通过计算藏文语料对应汉语译文中上下文词汇与义项的相似度和相关度选择合适词义。在经过词法分析预处理的藏汉对照句子上实验可得到55.04%的平均词语级准确率,在选择的语料上实验获得50.4%的平均句级准确率。3)结合基于语义知识的网络图方法研究藏文词义消歧方法:针对前一种方法中存在的上下文环境与义项之间数据稀疏问题,提出利用HowNet提供的丰富语义信息为义项构建语义关系图,通过计算上下文环境与语义关系图中关系项的相关度得到义项选择参数,根据义项选择参数选择当前歧义词汇的合适义项。经过实验,该方法的平均句级消歧准确率比使用上下文环境与义项计算相似度与相关度消歧方法提升3.7%,词汇级平均消歧准确率提升3.12%。