论文部分内容阅读
摘 要:本文对公共服务机器人的人机交互功能需求进行了分析,设计了一款基于瑞芯微RK3399芯片为核心的具有语音识别、人脸识别等功能的人机交互系统,并针对人机交互功能需求完成了系统相关硬件电路的设计,所设计的系统可基本满足市面上已量产的所有服务机器人的人机交互功能,实用性较强,具有推广应用的价值。
关键词:服务机器人,人机交互系统,RK3399
0 引言
近些年,随着人工智能技术的飞速发展,做为人工智能技术主要载体的公共服务机器人也开始在酒店物品运送、商场促销导购、政务办理等各个领域得到较大规模的应用。面部识别、语音识别等人机交互功能已成为公共服务机器人的标配功能。这些功能在带来较好的人机交互体验的同时,也提高了控制系统的复杂度,对控制系统的性能、成本也提出了更高要求。
基于此,本文设计了一种面向公共服务机器人的人机交互系统,采用模块化设计思路,降低控制系统复杂度,并充分考虑成本因素,可以基本满足不同应用领域对公共服务机器人人机交互系统的需求,并兼顾成本考虑。
1 人机交互系统总体设计
目前,用于公共服务场景的机器人的人机交互功能主要是机器人通过视觉、语音技术与人进行交互且由于机器人本身计算能力和存储能力有限,为使人机交互有较好的体验,需要机器人连接外网获取部署在云端服务器上的语音、视觉知识库及其它丰富资源。如图1所示,为服务机器人人机交互系统总体设计框图。人机交互功能是机器人对外感知与实现的载体,主要应具有显示屏、摄像头、MIC阵列及扬声器等常用外设,且由于机器人在人机交互时需要连接云端外网及本地局域网,所以还应具有WIFI、蓝牙及LTE功能,另外机器人还需要与自主移动底盘、电池等外设通讯、读写操作优盘等,所以还应具有以太网、RS232及USB等扩展能力接口。所以,考虑到上述功能及接口需求并结合运行语音识别及视觉识别算法对计算能力的需求,本设计采用了瑞芯微的RK3399做为服务机器人人机交互系统的核心。围绕RK3399搭建硬件电路,设计RK3399主板,并扩展摄像头、触摸显示屏、扬声器及MIC阵列等外设。
2 人机交互系统硬件设计
如图2所示,RK3399是基于Big.Little大小核架构的低功耗高性能处理器,它包括双核Cortex-A72、4核Cortex-A53以及獨立的NEON协处理器,可应用于计算机、个人移动互联网及数字多媒体等设备。RK3399内置多种功能强大的嵌入式硬件引擎,支持多格式视频、高品质的JPEG的编解码,以及特殊图像的预处理和后处理。内置特殊的MMU 2D 硬解码器能最大限度地提高显示性能,提供流畅的体验操作。RK3399具有高性能的双通道存储器接口,能够提供高内存带宽,同时为应用提供了一套完整的外设接口。
考虑需要运行语音识别、人脸识别等人工智能算法,对计算能力有较高要求,所以系统存储采用4GB DDR3+32GB EMMC配置。由于是机器人应用,对系统软件的兼容性和稳定性要求较高,所以本设计中采用安卓7.1版本。
2.1 语音相关电路设计
语音识别技术主要分为音频的采集、识别、理解和合成。音频的采集主要通过MIC阵列,目前主流技术有环形6MIC阵列以及线形4MIC阵列,二者区别在于声源定位范围不同,6MIC阵列为360°而4MIC阵列为180°。本文中采用6MIC采集兼容4MIC方式。由于模拟MIC采集的音频信号为小信号,在传输过程中易受干扰,影响语音识别效果,所以阵列MIC选用I2S接口数字硅麦。阵列通过RK3399自带3路I2S接口采集6路MIC音频,每2路MIC共用一路I2S。在机器人播放语音时,为保证仍能进行正常对话,需要设计回声消除电路。如图3所示,由于需回采音频功放输出端模拟信号,需将模拟音频转换为数字音频,所以采用TLV320ADC3101音频ADC芯片,将模拟回采信号转换为I2S音频并输出到RK3399第4路I2S接口。
音频的识别、理解与合成需要连接本地私有云或外网公有云。合成后的语音通过音频输出电路播放。音频输出电路设计如图4、图5所示,采用数字音频输出芯片ES8316,将RK3399输出的I2S数字音频转换为模拟音频,并通过两个音频功放芯片CS8508E进行功率放大输出。单个功放芯片最大输出功率为15W,可满足市面上主流服务机器人应用需求。
2.2 视觉识别相关电路设计
RK3399支持双ISP,像素处理能力高达13MPix/s,支持双路摄像头数据同时输入。所以本设计中综合了成本以及功能需求选用13Mpixel的MIPI-CSI接口摄像头做为人机交互系统中人脸识别、拍照及视频通话应用的主摄像头。RK3399有两组MIPI-CSI输入,均内置ISP处理器,在双MIPI输入的时候可以同时使用。
2.3 显示相关电路设计
目前市面上主流服务机器人均采用触摸显示屏,屏幕大小从6寸~32寸。且有部分机器人采用双屏设计,一个较小的屏幕放在机器人头部,用来做为机器人表情显示。另一个较大的屏幕放在机器人胸前,用来进行业务办理等操作。目前主流液晶屏多采用EDP接口或MIPI_DSI接口。一般较大的屏幕多采用EDP,较小的屏幕多采用MIPI_DSI接口。本设计采用兼容性设计,利用RK3399自带的EDP接口和MIPI_DSI接口分别各扩展一块显示屏,实现双屏显示。用一块10.1寸液晶屏完成机器人面部表情显示功能,采用MIPI接口,另一块15.6寸液晶屏采用完成业务办理操作功能,采用EDP接口。如图6所示为15.6寸液晶屏EDP显示电路。
触摸屏多采用USB、I2C或UART接口,触摸屏厂家可根据客户要求配不同的触摸芯片,本设计中针对两块屏幕,触摸芯片分别采用USB和I2C接口。
2.4无线功能相关电路设计 服务机器人人机交互系统通过语音识别、人脸识别、声纹识别等人工智能技术与人进行信息交互,而人工智能技术对系统计算力和知识库要求较高。目前公共服务机器人设计普遍的做法是将语音、人脸在本地进行采样,将知识库布置在云端,包括本地局域网私有云及公网公有云,信息采样后机器人通过局域网或外网连接云端知识库进行计算、查询等操作,最后从云端将查询结果返回本地。所以人机交互系统需要具备WIFI、蓝牙、有线以太网及4G_LTE无线功能。如图8所示,为WIFI&BT电路,RK3399通过芯片自带的SDIO接口和UART接口扩展WIFI&BT芯片AP6356S。AP6356S芯片是WIFI、BT功能二合一芯片,符合IEEE 802.11 a/b/g/n/ac 2x2 MIMO标准,可以双通道传输及支持雙频段(2.4GHz&5GHz),且支持蓝牙4.1。还可根据使用方式不同将AP6356S配置成热点模式或客户端模式。
当公共服务机器人处于某些没有WIFI的环境时,为连接外网云端,需具有4G_LTE功能。如图7所示,为4G模块扩展电路。RK3399通过USB2.0接口及系统自带I2C接口扩展移远通信EC25 Mini PCIe模块。EC25模块是LTE Cat 4无线通信模块,采用PCI Express? Mini Card标准接口。支持最大下行速率150Mbps和最大上行速率50Mbps。模块采用堆叠方式安装在RK3399主板上。
人机交互系统无线功能采用WIFI优先模式,当WIFI和LTE功能均开启时,LTE功能无效。而当WIFI断网时,LTE自动代替WIFI连接外网。
2.5 电源输入及外设接口电路设计
人机交互系统所需电源由RK3399主板进行电源转换产生。考虑系统供电可能为电池或直流稳压电源,且公共服务机器人供电电压普遍为直流9~24V,所以电源部分采用BQ25703充电控制器对输入电源进行转换。BQ25703可实现输入电源的升压与降压转换,且可同步给锂电池充电。本设计中将转换后的电源电压稳压在14.8V,可对4串三元锂电池进行充电。再通过MP8756开关电源芯片将14.8V电压转换为3.3V及5V常规电压给RK3399板卡芯片供电。由于RK3399芯片系统对电源上电时序和电压要求较严格,采用瑞芯微电源管理芯片RK808给RK3399芯片系统供电。
RK3399自带2路USB2.0、2路USB3.0及TYPE C接口,考虑对外连接外设和系统内部自用需求,系统原生的USB接口不够,所以分别用USB2.0 HUB和USB3.0 HUB芯片GL850和GL3523进行扩展。
RK3399内部集成了一个千兆以太网MAC,可以外接不同以太网PHY,实现百兆/千兆网络功能。本设计中采用RTL8211E千兆以太网PHY扩展出以太网接口。
3 结论
本文为公共服务机器人人机交互系统提供了一种设计方案,选用RK3399芯片为控制核心,围绕该芯片实现了人机交互系统硬件电路的设计及外设扩展。可以基本满足不同应用领域对公共服务机器人人机交互系统的需求,且由于集成度较高,使得硬件成本较低,比较有推广价值。
参考文献:
[1]邓卫斌,于国龙.社交机器人发展现状及关键技术研究[J].科学技术与工程,2016,16(12):163-
170.
关键词:服务机器人,人机交互系统,RK3399
0 引言
近些年,随着人工智能技术的飞速发展,做为人工智能技术主要载体的公共服务机器人也开始在酒店物品运送、商场促销导购、政务办理等各个领域得到较大规模的应用。面部识别、语音识别等人机交互功能已成为公共服务机器人的标配功能。这些功能在带来较好的人机交互体验的同时,也提高了控制系统的复杂度,对控制系统的性能、成本也提出了更高要求。
基于此,本文设计了一种面向公共服务机器人的人机交互系统,采用模块化设计思路,降低控制系统复杂度,并充分考虑成本因素,可以基本满足不同应用领域对公共服务机器人人机交互系统的需求,并兼顾成本考虑。
1 人机交互系统总体设计
目前,用于公共服务场景的机器人的人机交互功能主要是机器人通过视觉、语音技术与人进行交互且由于机器人本身计算能力和存储能力有限,为使人机交互有较好的体验,需要机器人连接外网获取部署在云端服务器上的语音、视觉知识库及其它丰富资源。如图1所示,为服务机器人人机交互系统总体设计框图。人机交互功能是机器人对外感知与实现的载体,主要应具有显示屏、摄像头、MIC阵列及扬声器等常用外设,且由于机器人在人机交互时需要连接云端外网及本地局域网,所以还应具有WIFI、蓝牙及LTE功能,另外机器人还需要与自主移动底盘、电池等外设通讯、读写操作优盘等,所以还应具有以太网、RS232及USB等扩展能力接口。所以,考虑到上述功能及接口需求并结合运行语音识别及视觉识别算法对计算能力的需求,本设计采用了瑞芯微的RK3399做为服务机器人人机交互系统的核心。围绕RK3399搭建硬件电路,设计RK3399主板,并扩展摄像头、触摸显示屏、扬声器及MIC阵列等外设。
2 人机交互系统硬件设计
如图2所示,RK3399是基于Big.Little大小核架构的低功耗高性能处理器,它包括双核Cortex-A72、4核Cortex-A53以及獨立的NEON协处理器,可应用于计算机、个人移动互联网及数字多媒体等设备。RK3399内置多种功能强大的嵌入式硬件引擎,支持多格式视频、高品质的JPEG的编解码,以及特殊图像的预处理和后处理。内置特殊的MMU 2D 硬解码器能最大限度地提高显示性能,提供流畅的体验操作。RK3399具有高性能的双通道存储器接口,能够提供高内存带宽,同时为应用提供了一套完整的外设接口。
考虑需要运行语音识别、人脸识别等人工智能算法,对计算能力有较高要求,所以系统存储采用4GB DDR3+32GB EMMC配置。由于是机器人应用,对系统软件的兼容性和稳定性要求较高,所以本设计中采用安卓7.1版本。
2.1 语音相关电路设计
语音识别技术主要分为音频的采集、识别、理解和合成。音频的采集主要通过MIC阵列,目前主流技术有环形6MIC阵列以及线形4MIC阵列,二者区别在于声源定位范围不同,6MIC阵列为360°而4MIC阵列为180°。本文中采用6MIC采集兼容4MIC方式。由于模拟MIC采集的音频信号为小信号,在传输过程中易受干扰,影响语音识别效果,所以阵列MIC选用I2S接口数字硅麦。阵列通过RK3399自带3路I2S接口采集6路MIC音频,每2路MIC共用一路I2S。在机器人播放语音时,为保证仍能进行正常对话,需要设计回声消除电路。如图3所示,由于需回采音频功放输出端模拟信号,需将模拟音频转换为数字音频,所以采用TLV320ADC3101音频ADC芯片,将模拟回采信号转换为I2S音频并输出到RK3399第4路I2S接口。
音频的识别、理解与合成需要连接本地私有云或外网公有云。合成后的语音通过音频输出电路播放。音频输出电路设计如图4、图5所示,采用数字音频输出芯片ES8316,将RK3399输出的I2S数字音频转换为模拟音频,并通过两个音频功放芯片CS8508E进行功率放大输出。单个功放芯片最大输出功率为15W,可满足市面上主流服务机器人应用需求。
2.2 视觉识别相关电路设计
RK3399支持双ISP,像素处理能力高达13MPix/s,支持双路摄像头数据同时输入。所以本设计中综合了成本以及功能需求选用13Mpixel的MIPI-CSI接口摄像头做为人机交互系统中人脸识别、拍照及视频通话应用的主摄像头。RK3399有两组MIPI-CSI输入,均内置ISP处理器,在双MIPI输入的时候可以同时使用。
2.3 显示相关电路设计
目前市面上主流服务机器人均采用触摸显示屏,屏幕大小从6寸~32寸。且有部分机器人采用双屏设计,一个较小的屏幕放在机器人头部,用来做为机器人表情显示。另一个较大的屏幕放在机器人胸前,用来进行业务办理等操作。目前主流液晶屏多采用EDP接口或MIPI_DSI接口。一般较大的屏幕多采用EDP,较小的屏幕多采用MIPI_DSI接口。本设计采用兼容性设计,利用RK3399自带的EDP接口和MIPI_DSI接口分别各扩展一块显示屏,实现双屏显示。用一块10.1寸液晶屏完成机器人面部表情显示功能,采用MIPI接口,另一块15.6寸液晶屏采用完成业务办理操作功能,采用EDP接口。如图6所示为15.6寸液晶屏EDP显示电路。
触摸屏多采用USB、I2C或UART接口,触摸屏厂家可根据客户要求配不同的触摸芯片,本设计中针对两块屏幕,触摸芯片分别采用USB和I2C接口。
2.4无线功能相关电路设计 服务机器人人机交互系统通过语音识别、人脸识别、声纹识别等人工智能技术与人进行信息交互,而人工智能技术对系统计算力和知识库要求较高。目前公共服务机器人设计普遍的做法是将语音、人脸在本地进行采样,将知识库布置在云端,包括本地局域网私有云及公网公有云,信息采样后机器人通过局域网或外网连接云端知识库进行计算、查询等操作,最后从云端将查询结果返回本地。所以人机交互系统需要具备WIFI、蓝牙、有线以太网及4G_LTE无线功能。如图8所示,为WIFI&BT电路,RK3399通过芯片自带的SDIO接口和UART接口扩展WIFI&BT芯片AP6356S。AP6356S芯片是WIFI、BT功能二合一芯片,符合IEEE 802.11 a/b/g/n/ac 2x2 MIMO标准,可以双通道传输及支持雙频段(2.4GHz&5GHz),且支持蓝牙4.1。还可根据使用方式不同将AP6356S配置成热点模式或客户端模式。
当公共服务机器人处于某些没有WIFI的环境时,为连接外网云端,需具有4G_LTE功能。如图7所示,为4G模块扩展电路。RK3399通过USB2.0接口及系统自带I2C接口扩展移远通信EC25 Mini PCIe模块。EC25模块是LTE Cat 4无线通信模块,采用PCI Express? Mini Card标准接口。支持最大下行速率150Mbps和最大上行速率50Mbps。模块采用堆叠方式安装在RK3399主板上。
人机交互系统无线功能采用WIFI优先模式,当WIFI和LTE功能均开启时,LTE功能无效。而当WIFI断网时,LTE自动代替WIFI连接外网。
2.5 电源输入及外设接口电路设计
人机交互系统所需电源由RK3399主板进行电源转换产生。考虑系统供电可能为电池或直流稳压电源,且公共服务机器人供电电压普遍为直流9~24V,所以电源部分采用BQ25703充电控制器对输入电源进行转换。BQ25703可实现输入电源的升压与降压转换,且可同步给锂电池充电。本设计中将转换后的电源电压稳压在14.8V,可对4串三元锂电池进行充电。再通过MP8756开关电源芯片将14.8V电压转换为3.3V及5V常规电压给RK3399板卡芯片供电。由于RK3399芯片系统对电源上电时序和电压要求较严格,采用瑞芯微电源管理芯片RK808给RK3399芯片系统供电。
RK3399自带2路USB2.0、2路USB3.0及TYPE C接口,考虑对外连接外设和系统内部自用需求,系统原生的USB接口不够,所以分别用USB2.0 HUB和USB3.0 HUB芯片GL850和GL3523进行扩展。
RK3399内部集成了一个千兆以太网MAC,可以外接不同以太网PHY,实现百兆/千兆网络功能。本设计中采用RTL8211E千兆以太网PHY扩展出以太网接口。
3 结论
本文为公共服务机器人人机交互系统提供了一种设计方案,选用RK3399芯片为控制核心,围绕该芯片实现了人机交互系统硬件电路的设计及外设扩展。可以基本满足不同应用领域对公共服务机器人人机交互系统的需求,且由于集成度较高,使得硬件成本较低,比较有推广价值。
参考文献:
[1]邓卫斌,于国龙.社交机器人发展现状及关键技术研究[J].科学技术与工程,2016,16(12):163-
170.