汉语口语对话系统的语言分析

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:xiaofagn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理已历时几十年了,热潮莫过于机器翻译。机器翻译的热潮过去后,语言处理逐渐进入平静、现实的务实阶段。近期人们将目标定在文本的自动分摘要、信息的自动检索和过滤以及限定领域的人机对话系统等方面。本文介绍口语人机对话系统语言分析的研究。 语言处理中,实用性很强、高效的是统计方法。但基于规则的方法可以细致刻言内在结构的各个方面,如果能综合运用情景、上下文和常识获取语义特征,定领域的情况下,分析的准确率将会显著提高。 本文根据汉语口语缺省多、插入语多、短句多和语序灵活等语言特点,设计了以规则为主、结合概率信息的语言综合分析方法。在汉语分词和词性标注的基基于合一文法利用图算法进行部分句法分析,最后结合上下文、情景、常识率信息获取语义特征。该方法有效提高了汉语口语对话系统语言分析的准确同时考虑了效率和领域切换等实用方面的问题。并实现了上海市交通信息查询——SHJTQ,同时完成了相关的测试评价工作,从而确保了系统的正确性、有。 词切分和词性标注方面,本文通过建立索引和采用合适的Hash算法,改进了词组织形式,极大提高了分词和词性标注的效率。从而减少系统实时响应时间。句法分析方面,本文根据汉语口语特点进行了如下改进和尝试:(1)、采用部分分析而不是常规的完全句法分析,从而有效分析含有插入语、缺省、语序变化、多个短句等不规正语句;(2)、采用基于合一文法的语法体系,通过特征校验限制句法规则归约,减少句法分析的歧义;通过特征传递获取短语的语义语法信息,以便进一步获取整句的语义特征;(3)、实现了特征和句法规则的预编译,使得句法知识库具有良好的开放性,减少了领域切换时所需工作量。 语义分析的难点在于如何处理缺省、指代、否定等复杂语言现象。本文从所限定的领域特点出发,尝试给出一些实用的处理方法:(1)、采用合一算法根据上下文、情景求解缺省;(2)、采用史列表方法结合语法语义限制规则求解指代;(3)、将否定分为句间否定和句中否定,根据“否定候选集—对比删除”流程确定否定词的具体辖域。这些方法充分利用了上下文、情景和常识,在本系统中处理正确率达到了80%以上。 最后对本文所提出的语言分析方法进行了测试。测试结果表明该方法不但可以有效处理规正的查询语句,而且可以处理含有插入语、多个短句等非规正语句;处理效率基本实用。在此基础上,提出了进一步的工作方向。 上述方法及系统已被采纳于上海市科委重点项目中。
其他文献
云计算是一种基于互联网的IT服务提供方式,凭借高度的可扩展性和灵活性以及经济高效等优势,成为构建IT软硬件服务的首选。云数据中心作为云计算平台的基础设施包括计算、存储和
GPU的浮点峰值、访存带宽以及性能功耗比都超出同时代的CPU若干倍,成为加速计算密集型应用的引擎。然而,实际GPU程序的性能却远低于GPU的浮点峰值。比如,经过深度优化的稠密矩阵
该文通过分析远程机器人控制系统的特点,即一个外部中断驱动的周期性的迭代过程,着重研究基于Linux的实时控制系统的开发与实现.该系统针对传统机器人控制系统价格高、实时性
该文的第一部分主要讨论了门限密码体制的有关问题.公钥密码体制允许任何发送者向一个已知的接收者(或者接收者的公钥可以被验证)发送秘密信息.公钥体制也能用于数字签名.数
为了能完整的理解一个复杂的系统,就要对它建模,即从某个视点,在某种层次上详细说明被建模的系统。建模可看成一套在目标系统完成之前表达目标系统的技术,面向对象对于复杂软件系
本课题研究的重点在于对PKI中常用的密码学算法和安全协议的实现进行构件化,目标是使程序员在不需了解算法和协议细节的情况下能够使用本课题的研究成果进行安全应用的开发。
图像语义分割是计算机视觉领域中一个重要的研究主题,其旨在将图像自动分割成若干个含有一定语义信息的区域。准确的图像语义分割是实现诸多计算机视觉任务(如场景理解与分析)的
记录系统是与人们生活、工作关系密切的一种系统,随着科学技术特别是计算机技术的飞速发展,原来的记录系统己不能完全适应现在的生产需要,系统将向着网络化、数字化、多媒体、大
该文基于对系统分析与设计的理论研究,结合管理信息系统的特点,利用结构化分析和设计方法,重点阐述了某外贸企业合同管理模块的分析与设计过程.首先,该文讨论了管理信息系统
该文采用先进的视景仿真理论和计算机图形学技术,对分队战术训练模拟系统的视景仿真技术进行了深入的研究.在此基础之上,该文利用标准图形软件接口OpenGL和支持可视化编程的