论文部分内容阅读
自然语言处理已历时几十年了,热潮莫过于机器翻译。机器翻译的热潮过去后,语言处理逐渐进入平静、现实的务实阶段。近期人们将目标定在文本的自动分摘要、信息的自动检索和过滤以及限定领域的人机对话系统等方面。本文介绍口语人机对话系统语言分析的研究。
语言处理中,实用性很强、高效的是统计方法。但基于规则的方法可以细致刻言内在结构的各个方面,如果能综合运用情景、上下文和常识获取语义特征,定领域的情况下,分析的准确率将会显著提高。
本文根据汉语口语缺省多、插入语多、短句多和语序灵活等语言特点,设计了以规则为主、结合概率信息的语言综合分析方法。在汉语分词和词性标注的基基于合一文法利用图算法进行部分句法分析,最后结合上下文、情景、常识率信息获取语义特征。该方法有效提高了汉语口语对话系统语言分析的准确同时考虑了效率和领域切换等实用方面的问题。并实现了上海市交通信息查询——SHJTQ,同时完成了相关的测试评价工作,从而确保了系统的正确性、有。
词切分和词性标注方面,本文通过建立索引和采用合适的Hash算法,改进了词组织形式,极大提高了分词和词性标注的效率。从而减少系统实时响应时间。句法分析方面,本文根据汉语口语特点进行了如下改进和尝试:(1)、采用部分分析而不是常规的完全句法分析,从而有效分析含有插入语、缺省、语序变化、多个短句等不规正语句;(2)、采用基于合一文法的语法体系,通过特征校验限制句法规则归约,减少句法分析的歧义;通过特征传递获取短语的语义语法信息,以便进一步获取整句的语义特征;(3)、实现了特征和句法规则的预编译,使得句法知识库具有良好的开放性,减少了领域切换时所需工作量。
语义分析的难点在于如何处理缺省、指代、否定等复杂语言现象。本文从所限定的领域特点出发,尝试给出一些实用的处理方法:(1)、采用合一算法根据上下文、情景求解缺省;(2)、采用史列表方法结合语法语义限制规则求解指代;(3)、将否定分为句间否定和句中否定,根据“否定候选集—对比删除”流程确定否定词的具体辖域。这些方法充分利用了上下文、情景和常识,在本系统中处理正确率达到了80%以上。
最后对本文所提出的语言分析方法进行了测试。测试结果表明该方法不但可以有效处理规正的查询语句,而且可以处理含有插入语、多个短句等非规正语句;处理效率基本实用。在此基础上,提出了进一步的工作方向。
上述方法及系统已被采纳于上海市科委重点项目中。