论文部分内容阅读
自然语言问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。自然语言问答的人机界面、精确和实时是自然语言问答系统的三大研发目标。其中,精确性是中文语言问答系统的首要目标。为达到这一目标,在用户问句处理方面,需对用户输入的问句进行正确的分词、同义词扩充、名实体标注、句法分析、答案类型标注等等处理。对于知识源文档,也要进行同样的处理。对于基于传统IR技术的问答系统来说,还需要一个综合考察用户问句与文本片断的之间相似度计算方法。可以说,实现问答系统所需要的技术涉及计算语言学的方方面面。中文口语交互式开放域问答系统正是在此基础上兴起的一个前沿研究方向,本文介绍了中文口语交互式开放域问答系统的发展现状和常用的关键技术。中文口语交互式开放域问答系统包括四个主要部分:语音处理、问题分析与处理、信息检索、答案抽取和答案选择。本文分别介绍了这四个主要组成部分所涉及的关键技术,提出了规范化问题类型库的概念和简单模型,最后还介绍了中文口语交互式开放域问答系统的简单实现和评价问题。语音处理包括语音识别和语音合成两部分。用户使用自然语言口语提出的问题首先由语音识别部分通过预处理、特征提取和模式识别形成系统认为最佳的识别形式,将口语问题转换为文本问题,以供后续模块分析和处理。而语音合成部分的主要功能是将系统生成的文本答案通过口语合成技术转换为口语答案反馈于用户。本系统在语音识别后先将文本答案反馈于用户获取用户的意见实现口语交互性。问题分析处理部分是对语音识别后的问题进行分析和处理。中文口语交互式开放域问答系统首先进行问题的分析工作,这个过程分析的效果对后面的处理过程有着重要的影响。问题分析部分需要完成以下几部分工作:对问题进行分词以及词性标注、确定问题的类型、提取出问题的关键词、依据问题的类型等因素对关键词进行适当的扩展。文中我们主要介绍了问题的分类,并提出了规范化问题类型库的概念。信息检索部分的任务就是用前面提取出来的关键字到文档库中查找相关的文档。信息检索模块返回的是一些最相关的文档。在本统中的信息检索模块可以直接调用已有检索引擎也可调用Internet上的搜索引擎比如Google。笔者还设计了一个常问问题库。对经问题分析处理后的问题,能够自动地在常用问题库中寻找候选问题集,通过计算句子相似度,将匹配的答案返回给用户。还能够自动地更新和维护常用问题库。在TREC(Text REtrieval Conference)会议中就不要求每个问答系统都要有自己的信息检索模块,因为TREC会议会为每个问题提供最相关的1000个文档。一般搜索引擎如Google返回的是一堆网页,而中文口语交互式开放域问答系统需要返回的是简短的答案。这样,通过信息检索模块搜索出来的相关文档就要提交给答案抽取模块来提炼答案。答案可以有几种类型,可能是一句话,或者是几句话,也可能是几个词或者短语。对于那些问时间地点的问题,就可以用很短的语句来回答,而对于询问原因、事件的问题就需要较长的语句才能回答。所以答案的抽取还需要依据问题的类型来确定答案的类型。本文论述了被认为是下一代的INERNET的主要应用方法,即口语交互式开放域问答系统。在国内外首次提出了口语交互操作、规范化问题库的开发及应用两个新方法。这两个方法的深入研究和使用是非常有价值的。