中文口语交互式开放域问答系统关键技术研究

来源 :北京工商大学 | 被引量 : 4次 | 上传用户:dl_wan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。自然语言问答的人机界面、精确和实时是自然语言问答系统的三大研发目标。其中,精确性是中文语言问答系统的首要目标。为达到这一目标,在用户问句处理方面,需对用户输入的问句进行正确的分词、同义词扩充、名实体标注、句法分析、答案类型标注等等处理。对于知识源文档,也要进行同样的处理。对于基于传统IR技术的问答系统来说,还需要一个综合考察用户问句与文本片断的之间相似度计算方法。可以说,实现问答系统所需要的技术涉及计算语言学的方方面面。中文口语交互式开放域问答系统正是在此基础上兴起的一个前沿研究方向,本文介绍了中文口语交互式开放域问答系统的发展现状和常用的关键技术。中文口语交互式开放域问答系统包括四个主要部分:语音处理、问题分析与处理、信息检索、答案抽取和答案选择。本文分别介绍了这四个主要组成部分所涉及的关键技术,提出了规范化问题类型库的概念和简单模型,最后还介绍了中文口语交互式开放域问答系统的简单实现和评价问题。语音处理包括语音识别和语音合成两部分。用户使用自然语言口语提出的问题首先由语音识别部分通过预处理、特征提取和模式识别形成系统认为最佳的识别形式,将口语问题转换为文本问题,以供后续模块分析和处理。而语音合成部分的主要功能是将系统生成的文本答案通过口语合成技术转换为口语答案反馈于用户。本系统在语音识别后先将文本答案反馈于用户获取用户的意见实现口语交互性。问题分析处理部分是对语音识别后的问题进行分析和处理。中文口语交互式开放域问答系统首先进行问题的分析工作,这个过程分析的效果对后面的处理过程有着重要的影响。问题分析部分需要完成以下几部分工作:对问题进行分词以及词性标注、确定问题的类型、提取出问题的关键词、依据问题的类型等因素对关键词进行适当的扩展。文中我们主要介绍了问题的分类,并提出了规范化问题类型库的概念。信息检索部分的任务就是用前面提取出来的关键字到文档库中查找相关的文档。信息检索模块返回的是一些最相关的文档。在本统中的信息检索模块可以直接调用已有检索引擎也可调用Internet上的搜索引擎比如Google。笔者还设计了一个常问问题库。对经问题分析处理后的问题,能够自动地在常用问题库中寻找候选问题集,通过计算句子相似度,将匹配的答案返回给用户。还能够自动地更新和维护常用问题库。在TREC(Text REtrieval Conference)会议中就不要求每个问答系统都要有自己的信息检索模块,因为TREC会议会为每个问题提供最相关的1000个文档。一般搜索引擎如Google返回的是一堆网页,而中文口语交互式开放域问答系统需要返回的是简短的答案。这样,通过信息检索模块搜索出来的相关文档就要提交给答案抽取模块来提炼答案。答案可以有几种类型,可能是一句话,或者是几句话,也可能是几个词或者短语。对于那些问时间地点的问题,就可以用很短的语句来回答,而对于询问原因、事件的问题就需要较长的语句才能回答。所以答案的抽取还需要依据问题的类型来确定答案的类型。本文论述了被认为是下一代的INERNET的主要应用方法,即口语交互式开放域问答系统。在国内外首次提出了口语交互操作、规范化问题库的开发及应用两个新方法。这两个方法的深入研究和使用是非常有价值的。
其他文献
Web服务使得web向着一个基于Internet的计算平台发展。然而现在的web服务标准UDDI(Universal Description Discovery and Integration,统一描述、发现和集成)、WSDL(Web Serv
目前在国内企业信息系统方面的大量投资能否为企业带来相应的价值,是困扰企业实施推进信息系统过程中遇到的最主要的问题之一。所以对于信息系统项目效益评价与管理无论在理论
数字图像隐形信息的检测技术,也称为图像隐写分析(Image Steganalysis)。随着信息安全日益引起人们的关注,隐写分析已经成为了信息隐藏领域的一个重要的研究方向。隐写分析不仅
本文是嵌入式语音智能控制的一个应用,最终控制对象为具有四自由度的机器人。本嵌入式语音控制器设计的内容包含硬件平台的构建、软件控制程序的编写等。该语音控制器主要是针
随着Internet的快速发展和企业级网络应用广泛使用,软件的规模越来越大,传统的软件开发越来越不适应潮流的发展。由于WEB应用的基础是以文档为中心,面向对象的成熟软件方法无
探地雷达(GPR)用于路面无损检测是近年来发展起来的新技术,由于其测量精度高,能满足测量误差要求,已在国内外得到广泛应用。然而对其回波信号的结果检测大多仍停留在人工检测阶
在嵌入式技术与通信技术飞速发展的今天,Sun公司提出了基于消费类电子设备的嵌入式开发技术J2ME(Java 2 Micro Edition),并在其范畴内针对移动通信设备定义了一个子集MIDP(Mo
可分级视频编解码(Scalable Video Coding)技术是在MPEG-2标准中提出的,其基本思想对视频图像进行分层编解码。可分级视频编解码,目的在于形成具有基本质量的基本层,以及一个
分支定界算法是求解优化问题的重要方法。虽然它有很高的计算精度,但是,高的计算时间复杂度,降低了它的实际应用价值。本文设计实现的一种专用于计算分支定界算法的机群计算
在木材加工中,原木的外围几何形状是制约下锯的关键性因素,对原木形状的精确识别已成为木材加工业的首要问题。长期以来使用的人工检尺方法,受人为因素影响较大且工作效率低,