论文部分内容阅读
句法分析是自然语言理解的一项基础技术,是迈向深层语言理解的基石,在语义分析、问答系统、搜索引擎、信息抽取和检索等许多自然语言处理任务中不可或缺。随着信息技术的不断进步和发展,对句法分析技术的要求也越来越高,越来越多的人工智能应用程序依靠句法信息来处理和提取文本或语音中的含义。但是由于研究力度不足、数据资源匮乏和技术水平欠佳等原因,藏文句法分析的研究还未取得重大突破。研究藏文句法分析时,很多研究者对所有藏文句型展开了研究。然而不同藏文句型的语法结构及句法特征存在明显差异,从而影响了藏文句法分析的整体效果。如果针对某类句型,根据其特性研究句法分析,可以提高藏文句法分析的性能。疑问句是一种常见的藏文句型,也是藏文问答系统、搜索引擎、信息抽取和检索等问题中的主要句型。因此,本文针对藏文疑问句,从以下几个方面研究藏文疑问句句法分析的相关技术。(1)藏文句法分析语料库构建通过研究网络爬虫技术,结合藏文自身的特点,设计了一种藏文网页文本的爬虫算法,完成了藏语语料的采集,并对其进行了预处理。在此基础上,通过分词、词性标注、句子抽取、短语标记和句法标记等环节构建了规模为2500句藏文句法分析语料库,为藏文疑问句的识别及句法分析奠定了基础。(2)藏文疑问句识别通过对藏文疑问句进行分类和归纳各类疑问句的结构特征,设计了一种基于句法树的藏文疑问句识别算法。根据设计的算法开发了基于句法树的藏文疑问句识别系统。最后通过设计不同的实验,分别考查了算法的分类和识别效果。实验表明,算法取得了较好的分类和识别效果,分类的平均准确率、召回率和F值分别达到96.98%、100%和98.39%,识别准确率、召回率和F值分别达到98.21%、100.00%和99.10%。(3)藏文疑问句句法分析根据藏文疑问句的分类和归纳的结构特征,训练了基于PCFG(Probabilistic Context-Free Grammar,PCFG)的藏文疑问句句法分析模型,完成了藏文疑问句句法分析,并开发了基于PCFG的藏文疑问句句法分析系统。最后通过设计不同的实验,分别考查了不同规模训练语料的句法分析效果。经实验测试,在开放测试集上的最高准确率、召回率和F值分别达到96.0%、96.1%和96.1%,句法分析效果相比基准实验的F值提高了5.40个百分点,表明根据具体句型(本文选择的是藏文疑问句)及其特征,对其进行句法分析可以取得更好的实验效果。