论文部分内容阅读
近年来,餐厅等服务行业的管理越来越规范化,服务员的服务质量和服务流程的智能化管理也越来越受到管理者的重视。建立一套标准的餐厅服务对话规范流程,可以提高餐厅的服务水平和顾客的满意度。由于餐厅服务员的说话质量在服务中起着至关重要的作用,管理者提出针对量化评估服务员说话质量的解决方案,通过对服务员说话内容采集监测,实时监控并识别服务员说话内容。并根据监测结果的反馈,对服务员进行绩效打分,最终跟踪评估员工服务质量。常规环境下,由于不受噪音等条件限制,现有的语音识别模型都能做到较高的字准率。但是,由于餐厅环境嘈杂,不可控因素较多,噪声不仅来源于说话人的声音,还有不同餐具和餐厅播放的背景音乐等都能产生较高的噪音,这些因素是影响餐厅环境下将服务员与顾客对话内容转换为文字的重要原因。在服务员与顾客处于垂直对话场景下,语音识别技术无法更准确有效的识别服务员与顾客对话内容,导致现有的解决方法在餐厅场景下不能达到更好的识别效果。嘈杂场景下的语音识别字准率偏低仍然是当前语音识别任务面临的主要问题,特别是在餐厅高噪声的情况下,通用的智能模版提取方法不能有效的提高识别准确性。为了解决餐厅场景下的服务对话识别,本文提出一种餐厅场景下服务对话的智能模版提取与服务员话术质量评估模型。具体工作包括两大模块;第一,设计并优化了服务对话智能模版提取模块,1.提出一种餐厅特定场景下数据增强方法,该方法通过收集餐厅噪声数据,对比不同信噪比,分别从时移变换、速度调整、混合白噪声等三种方式对音频做数据增强,并通过实验对比数据增强前后服务对话智能模版提取的识别率。2.搭建智能模版提取模型,整个模版建模利用Hidden Markov Model-Deep Neural Network(HMM-DNN)声学模型训练方法,在声学模型网络结构部分,分别提出Time Delay Neural Network-Recurrent Neural Network(TDNN-RNN)与Time Delay Neural Network Recurrent–Long Short Term Memory(TDNNR-LSTM)两种声学模型网络结构,并通过具体实验将两种网络结构的训练效果与传统Time Delay Neural Network(TDNN)声学模型网络结构进行对比。实验证明,本文提出的基于TDNN-RNN与TDNNR-LSTM两种网络结构的声学模型训练方法在餐厅噪声场景下字准率最优情况下能达到91%,优于传统的TDNN声学模型网络结构;第二,研究并实现了服务话术质量评估模块,1.提出一种聊天对话声学模型权重迁移学习,该方法主要是通过训练好的聊天对话语料预训练模型,采用声学模型权重迁移,解决噪声环境下服务员与顾客对话语料不足导致语音识别字准率低的问题。实验证明,权重迁移前后话术质量识别字错误率相差3%左右,话术质量得到了一定的提升。2.提出一种基于Weighted Finite State Tranducer(WFST)的话术关键词检索模型,生成话术关键词索引,构建基于有限状态器的关键词检索框架,利用索引反向查找,改善了餐厅环境噪声下服务话术关键词质量评估效果不足的问题。综上,本文主要针对餐厅场景下,量化与评估餐厅服务员服务质量而设计的一种服务对话智能模版提取与话术质量评估模型。该模型有效解决了餐厅场景下的服务员与顾客对话识别字准率低的问题,极大的提升了餐厅智能化的管理水平,很好的帮助了管理者对服务员服务质量的量化与评估,解决了话术关键词精准检测效果不匹配而导致的话术评估质量不足的问题。