论文部分内容阅读
目前Internet的发展非常迅速,用户增加也非常快。业务的增加也是非常多的。既有传统的数据、图像业务,现在又有了语音服务,如IP电话、呼叫中心等。为了统一各个厂家网上语音产品的标准,W3C发布了Voice Browserbro(语音浏览器)标准的草案。现在这个组中的成员有AT&T、Cisco、Hitachi、HP、IBM、Intel、Lucent、Microsoft、Motorola、Nokia、Nortel、Sun和Unisys等公司。
在这个标准中,Voice Browser组定义了几种支持语音输入和输出的链接语言。这些链接语言使语音设备可以跨越各种硬件和软件平台。特别是设计了关于对话、语音识别语法、语音合成、自然语言语义和搜集可重复使用的对话组件的链接语言。这些链接语言和组件就构成了未来语音界面框架。
Voice Browser
Voice Browser是一种翻译语音链接语言产生语音输出或者翻译语音输入的(软件和硬件)设备。它也有可能接受和产生其他形式的输入和输出。当前Voice Browser的发展已经可以使用户通过固定电话或蜂窝电话听、说来获得World Wide Web上的信息。如2000年11月7日亚洲语音在线公司正式开通了中文电话上网业务——中文语音网关。用户只要拨通010-63966666这个号码,经过简单注册就可以用电话、手机、车载电话通过人机交谈的方式从网上获得邮件、股票、航班、商场折扣、娱乐和新闻等信息。这些Voice Browser接受DTMF和语音作为输入,可以输出合成的语音或者重放事先录好的话。通过Voice Browser解析的语音链接语言在 WWW网上是可以找到的。然而Voice Browser却还有许多其他方面的发展。
在硬件方面,包括电话、蜂窝电话、手提电脑、掌上电脑、台式计算机都可以应用Voice Browser技术。Voice Browser可以嵌入到一些设备中去,如电视、收音机、录像机、远程控制设备、微波炉、电冰箱、咖啡壶、门铃等。其实可以是一切电子或电气设备。在软件方面,可以访问商业信息,包括在企业的前台询问呼叫者的要求,自动电话预订服务,航班到达和离开信息,电影戏剧订票服务和家庭银行服务。可以访问公共信息,如天气、交通、本地、国际国内新闻、国际国内股票市场信息和电子商业交易。可以访问个人信息,如日历、地址和电话表、商店列表。帮助用户用语音邮件和其他人联系。
现在的Voice Browser并不支持通过HTML 页进行语音接口。当前有一些公司正在创建可以有语音功能的HTML浏览器。这些有语音功能的HTML浏览器在把文本变成语音时必须决定他们的顺序,并且有可能把一些非文本的东西如表格,图象等变成语音。然而Voice Browser只是把用户确切需要的信息变成语音。
语音界面框架
白框图代表了有语音功能的WEB应用。黑箭头代表了在这些组件中的数据流。蓝框图表明了使用特定链接语言(ML)的数据,它们使各种组件完成各自的任务。这个语音接口框架组成包括:
ASR(Automatic Speech Recognizer)自动语音识别器:它接受用户发出的语音然后转变成文本。ASR用一个语法器从用户的口语中识别单词。一些ASR是通过发展(Speech Grammar Markup Language,语音语法链接语言)来使用语法器的。另外一些ASR使用从大规模的口语语料库产生的统计语法。这就表明这些语法用的是N-gram Stochastic Grammar MarkupLanguage(随机听写语法链接语言)。
DTMF Tone Recognizer(DTMF音调识别器):接受用户的拨号音频信号。用户可以通过它输入数字来进行菜单选择。
Language Understanding Component(语言理解组件): 从一个文本中用预先标注的语法提取出语义。这些文本可能是被ASR处理过,也可能是用户直接从键盘输入的。语言理解组件可能应用标注语法。语言理解组件的输出是用Natural Language Semantics Markup Language(自然语言语义链接语言)来表示的。
Context Interpreter(上下文解析器):它通过从对话历史(表1中没有)中获取上下文,这样可以增强Language Understanding Module(语言理解模式)。例如上下文解析器可以用代名词所指的名词来代替这个代名词。上下文解析器的输入和输出是用Natural Language Semantics Markup Language(自然语言语义链接语言)来表示的。
Dialog Manage(对话管理器):它提示用户输入,并理解输入的意思然后决定下一步怎么做。这些都是根据用VoiceXML 2.0 标注的对话描述结构来进行的。根据输入接收的东西,对话管理器将调用应用服务或者从网上下载其他的对话脚本。对话管理器是通过Natural Language Semantics Markup Language(自然语言语义链接语言)来接收标注输入的。对话脚本是参考Rsusable Dialog Cmponents (可重复使用对话组件)的,它也只是可以重复使用多种应用对话组件中的一部分。
Media Planner(媒体计划器):它将决定从对话管理器出来给用户输出是合成语音还是预先的录音。
Recorded audio player(录音机):播放预先的录音文件给用户。
Language Generator(语言生成器):接受来自媒体计划器的文本并且通过TTS准备把语音送给用户。这些文本可能包含了用Speech Synthesis Markup Language(语音合成链接语言)表示的链接标签。这种语言对于如何产生声音给出了提示和建议。这些标签可以由语言生成器自动产生,也可以由开发者人工插入。
Text-to-Speech Synthesizer(TTS,文本-语音合成):接收来自语言生成器的文本,然后根据用Speech Synthesis Markup Language标注产生象人说话一样的声音。
尽管各种具体的voice browser在具体的细节上可能有所不同,但是它们还是得用上图中的各种链接语言来完成这个系统。
voice browser是一个基于服务器的应用。这与WAP协议不同,它是基于客户端的一种应用。这是因为语音识别,语音理解和合成等一些技术集成在客户端不现实,也是很困难的。例如象手机要实时完成大规模连续语音识别,现在还不行。三星手机也只能是完成几十个电话号码的识别,离这个要求还差很远。最简单的情况就是客户端只负责接收数据并且传输到服务器上,其他的工作由服务器来完成,从而保证实时性和准确性。但是这并不是一成不变的,随客户端的不同,服务器承担的任务可以不一样。例如一些特征提取可以在客户端进行,识别在服务器上;小词汇量的识别在客户端上,象三星手机那样。大词汇量的识别在服务器上进行。
Voice Browser的优点
因为人们从小到大都是用语言进行交流,所以语音接口是一个非常自然的人机交互接口。现在人们接答固定电话和蜂窝电话并没有用上Voice Browser技术。一些Voice Browser设备可能有小屏幕,象移动电话和掌上电脑那样。但是在那样小的屏幕上用键盘输入不是一件令人愉快的事情。同样在那样小的屏幕上阅读信息也不是一件轻松的事情。这时Voice Browser就体现出了它的优越性。
现在人们上网主要还是通过台式计算机和手提电脑来上网的。虽然有了WAP协议,手机也可以上网浏览,但是很不方便。另外现在上网还是需要许多计算机知识,对于发展中国家,象我们中国大多数人来说,门槛还是过高。而应用Voice Browser可以使我们轻松用各种设备如电话、电视等一切电子或电气设备走进互联网。
在将来,Voice Browser还可以支持其他的模式和媒体,例如用笔、图象和传感器作为输入,用活动图象和激励控制来作为输出。例如语音和笔输入可能适合我们亚洲用户。因为我们所说的语言并不是与QWERTY键盘一致的。一些Voice Browser也是便携的。这样他们可以在任何地方:家里、办公室、路上使用。所以网上信息对许多听众来说也是随时可得的。特别是对那些有电话或移动电话的用户更是如此。Voice Browser同时为那些盲人或需要访问Web,但是手和眼睛却要干其他事情的用户提供了方便的实用接口。也使盲人用户获得了和正常人一样的工作空间。
同时它可以跨越各种平台,象电脑、电视、电话(包括移动电话)等,使人们可以随时随地获取所要的网上信息,并用语音表达出来。随着其中各项技术的发展、成熟和完善,这个市场将会迅速发展起来。
在这个标准中,Voice Browser组定义了几种支持语音输入和输出的链接语言。这些链接语言使语音设备可以跨越各种硬件和软件平台。特别是设计了关于对话、语音识别语法、语音合成、自然语言语义和搜集可重复使用的对话组件的链接语言。这些链接语言和组件就构成了未来语音界面框架。
Voice Browser
Voice Browser是一种翻译语音链接语言产生语音输出或者翻译语音输入的(软件和硬件)设备。它也有可能接受和产生其他形式的输入和输出。当前Voice Browser的发展已经可以使用户通过固定电话或蜂窝电话听、说来获得World Wide Web上的信息。如2000年11月7日亚洲语音在线公司正式开通了中文电话上网业务——中文语音网关。用户只要拨通010-63966666这个号码,经过简单注册就可以用电话、手机、车载电话通过人机交谈的方式从网上获得邮件、股票、航班、商场折扣、娱乐和新闻等信息。这些Voice Browser接受DTMF和语音作为输入,可以输出合成的语音或者重放事先录好的话。通过Voice Browser解析的语音链接语言在 WWW网上是可以找到的。然而Voice Browser却还有许多其他方面的发展。
在硬件方面,包括电话、蜂窝电话、手提电脑、掌上电脑、台式计算机都可以应用Voice Browser技术。Voice Browser可以嵌入到一些设备中去,如电视、收音机、录像机、远程控制设备、微波炉、电冰箱、咖啡壶、门铃等。其实可以是一切电子或电气设备。在软件方面,可以访问商业信息,包括在企业的前台询问呼叫者的要求,自动电话预订服务,航班到达和离开信息,电影戏剧订票服务和家庭银行服务。可以访问公共信息,如天气、交通、本地、国际国内新闻、国际国内股票市场信息和电子商业交易。可以访问个人信息,如日历、地址和电话表、商店列表。帮助用户用语音邮件和其他人联系。
现在的Voice Browser并不支持通过HTML 页进行语音接口。当前有一些公司正在创建可以有语音功能的HTML浏览器。这些有语音功能的HTML浏览器在把文本变成语音时必须决定他们的顺序,并且有可能把一些非文本的东西如表格,图象等变成语音。然而Voice Browser只是把用户确切需要的信息变成语音。
语音界面框架
白框图代表了有语音功能的WEB应用。黑箭头代表了在这些组件中的数据流。蓝框图表明了使用特定链接语言(ML)的数据,它们使各种组件完成各自的任务。这个语音接口框架组成包括:
ASR(Automatic Speech Recognizer)自动语音识别器:它接受用户发出的语音然后转变成文本。ASR用一个语法器从用户的口语中识别单词。一些ASR是通过发展(Speech Grammar Markup Language,语音语法链接语言)来使用语法器的。另外一些ASR使用从大规模的口语语料库产生的统计语法。这就表明这些语法用的是N-gram Stochastic Grammar MarkupLanguage(随机听写语法链接语言)。
DTMF Tone Recognizer(DTMF音调识别器):接受用户的拨号音频信号。用户可以通过它输入数字来进行菜单选择。
Language Understanding Component(语言理解组件): 从一个文本中用预先标注的语法提取出语义。这些文本可能是被ASR处理过,也可能是用户直接从键盘输入的。语言理解组件可能应用标注语法。语言理解组件的输出是用Natural Language Semantics Markup Language(自然语言语义链接语言)来表示的。
Context Interpreter(上下文解析器):它通过从对话历史(表1中没有)中获取上下文,这样可以增强Language Understanding Module(语言理解模式)。例如上下文解析器可以用代名词所指的名词来代替这个代名词。上下文解析器的输入和输出是用Natural Language Semantics Markup Language(自然语言语义链接语言)来表示的。
Dialog Manage(对话管理器):它提示用户输入,并理解输入的意思然后决定下一步怎么做。这些都是根据用VoiceXML 2.0 标注的对话描述结构来进行的。根据输入接收的东西,对话管理器将调用应用服务或者从网上下载其他的对话脚本。对话管理器是通过Natural Language Semantics Markup Language(自然语言语义链接语言)来接收标注输入的。对话脚本是参考Rsusable Dialog Cmponents (可重复使用对话组件)的,它也只是可以重复使用多种应用对话组件中的一部分。
Media Planner(媒体计划器):它将决定从对话管理器出来给用户输出是合成语音还是预先的录音。
Recorded audio player(录音机):播放预先的录音文件给用户。
Language Generator(语言生成器):接受来自媒体计划器的文本并且通过TTS准备把语音送给用户。这些文本可能包含了用Speech Synthesis Markup Language(语音合成链接语言)表示的链接标签。这种语言对于如何产生声音给出了提示和建议。这些标签可以由语言生成器自动产生,也可以由开发者人工插入。
Text-to-Speech Synthesizer(TTS,文本-语音合成):接收来自语言生成器的文本,然后根据用Speech Synthesis Markup Language标注产生象人说话一样的声音。
尽管各种具体的voice browser在具体的细节上可能有所不同,但是它们还是得用上图中的各种链接语言来完成这个系统。
voice browser是一个基于服务器的应用。这与WAP协议不同,它是基于客户端的一种应用。这是因为语音识别,语音理解和合成等一些技术集成在客户端不现实,也是很困难的。例如象手机要实时完成大规模连续语音识别,现在还不行。三星手机也只能是完成几十个电话号码的识别,离这个要求还差很远。最简单的情况就是客户端只负责接收数据并且传输到服务器上,其他的工作由服务器来完成,从而保证实时性和准确性。但是这并不是一成不变的,随客户端的不同,服务器承担的任务可以不一样。例如一些特征提取可以在客户端进行,识别在服务器上;小词汇量的识别在客户端上,象三星手机那样。大词汇量的识别在服务器上进行。
Voice Browser的优点
因为人们从小到大都是用语言进行交流,所以语音接口是一个非常自然的人机交互接口。现在人们接答固定电话和蜂窝电话并没有用上Voice Browser技术。一些Voice Browser设备可能有小屏幕,象移动电话和掌上电脑那样。但是在那样小的屏幕上用键盘输入不是一件令人愉快的事情。同样在那样小的屏幕上阅读信息也不是一件轻松的事情。这时Voice Browser就体现出了它的优越性。
现在人们上网主要还是通过台式计算机和手提电脑来上网的。虽然有了WAP协议,手机也可以上网浏览,但是很不方便。另外现在上网还是需要许多计算机知识,对于发展中国家,象我们中国大多数人来说,门槛还是过高。而应用Voice Browser可以使我们轻松用各种设备如电话、电视等一切电子或电气设备走进互联网。
在将来,Voice Browser还可以支持其他的模式和媒体,例如用笔、图象和传感器作为输入,用活动图象和激励控制来作为输出。例如语音和笔输入可能适合我们亚洲用户。因为我们所说的语言并不是与QWERTY键盘一致的。一些Voice Browser也是便携的。这样他们可以在任何地方:家里、办公室、路上使用。所以网上信息对许多听众来说也是随时可得的。特别是对那些有电话或移动电话的用户更是如此。Voice Browser同时为那些盲人或需要访问Web,但是手和眼睛却要干其他事情的用户提供了方便的实用接口。也使盲人用户获得了和正常人一样的工作空间。
同时它可以跨越各种平台,象电脑、电视、电话(包括移动电话)等,使人们可以随时随地获取所要的网上信息,并用语音表达出来。随着其中各项技术的发展、成熟和完善,这个市场将会迅速发展起来。