论文部分内容阅读
复述是相同语义的不同表达方式,在自然语言中非常普遍,它反映了人类语言的灵活性、多样性和复杂性。复述研究主要包含三个内容:一是复述抽取,即从原文中抽取关键词,重新组合这些字或词并使语义与原句相同;二是复述识别,即从语料中找出语义相同的句子或段落等不同的语言单元。三是复述生成,给定一个输入,输出一个相同语义的文本。复述方式包括短语到短语、句子到句子等等长复述,也有从词到短语、从短语到句子的不等长度的复述。本文主要研究的是藏文陈述句复述生成。首先对藏文句子进行分类并抽取陈述句,然后对句子进行语义分析,在此基础上构建藏文复述句语料库,最后通过机器学习自动生成藏文复述句。本文包括如下5个主要问题和解决方法:1.基于循环卷积神经网络的藏文句类分类方法研究藏文句类分类是藏文语言学和自然语言处理领域中尚未关注的一个研究点,鲜见于有关文献。本文的研究对象为藏文陈述句复述自动生成,其存在的主要问题是藏文句子的句类自动分类问题。问题的难点是其他语言的传统句类的分类方法不适用于藏文的句子分类,因为藏文没有特殊的标点符号来识别不同的句子种类。本文在充分分析藏文不同句类特征信息的基础上,提出了以藏文句子语境信息和特征功能为识别和分类依据,采用循环卷积神经网络对藏文句子进行识别和分类。实验结果表明:对藏文句类识别和分类的平均准确率达85.61%、召回率达86.54%、F值达85.59%。2.基于空洞卷积网络的藏文句子语义分割方法研究当前藏文句义的研究内容和方法停留在句法分析上,因此,对藏文句义理解的研究还没有一个具体的研究方法,且在藏文句义理解的研究方面与其他语言相比存在着很大的差距。研究藏文复述生成,首先要解决的问题是在理解原文句义后才能生成藏文陈述句复述。其问题的主要难点是在其他语言句子语义分割中通常以词为分割单元,然而,如果对藏文进行以词为单元的分割时,由于颗粒度过细,会产生或造成很多词汇歧义和语义序列解码的不稳定性问题。本文在分析藏语语言特性和语言编码组合规律的基础上,提出了一种新的语义单元分割方法。该语义单元长度介于词义之上句义之下,使语法、语义、语境融为一体。然后采用空洞卷积神经网络对藏文句子进行语义分割。实验结果表明:空洞卷积网络模型对语义分割的准确率达到了92.39%。3.基于藏文语序和语义词典的复述句语料构建方法研究机器学习中,数据资源的规模与质量直接影响学习结果。本文在研究过程中需要较大规模的藏文数据资源用于生成藏文陈述句复述研究。然而,解决此问题的难点在于,目前国内外还没有一个公开、大规模、高质量的藏文数据资源用于机器学习,更没有复述句的数据集。为解决藏语复述句的数据资源匮乏问题,本文提出了利用藏文语序变换和藏文语义词典等方法来构建藏语复述语料资源。实验结果表明人工评测后基于语序变换的藏文复述生成准确率为97.31%;且基于藏文语义词典的复述生成准确率为93.33%。4.基于注意力机制的藏文复述句生成研究近年来,随着复述研究成果应用到机器翻译、自动问答、信息检索、信息抽取、文本生成及阅读理解等相关研究,这使越来越多的研究者和研究机构开始关注并重视复述研究工作。然而,目前还没有找到利用注意力机制对藏文陈述句复述句生成进行研究的相关文献。本文试图将注意力机制应用到藏文陈述句复述自动生成研究中,以扩充现有藏文复述句的数据资源。本文在以上已构建的复述数据资源的基础上,提出了基于注意力机制的藏文复述句自动生成方法。实验结果表明:藏文复述句生成结果的BLEU值为40.38%。5.基于注意力机制的藏文新词释义自动生成研究随着人类社会的进步和科学技术的发展,新的术语和词汇不断涌现。目前的藏文新词术语的释义已无法满足人们的需求,因此,为解决这一问题,本文尝试利用机器学习方法对藏文新词术语进行自动释义。本文提出了一种基于注意力机制的藏文新词术语释义自动生成方法。实验结果表明,词典原文释义生成准确率为87.17%,新词释义生成准确率为80.32%。本文利用各种方法构建了较大规模的藏文复述句的数据资源,并尝试利用这些数据资源对藏文复述的自动生成进行基于机器学习方法的研究。本研究取得了较好的初步成果,希望这些成果能对藏文自然语言理解研究提供借鉴。