基于深度学习的生成式聊天机器人算法综述

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:kenapple1368
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着深度学习算法的发展,聊天机器人也迎来了发展的黄金时期,本文主要研究的是生成式聊天机器人,这种方式区别于检索式的聊天机器人,使得聊天机器人的迁移性与泛化性更佳。具有非常广阔的应用场景。本文首先对生成式聊天机器人领域主流框架进行实验,在此基础上加入attention注意力模型机制来提高生成效果,为了避免大量的无意义的安全回复,又采用强化学习评估对话的未来奖励,保证对话的自然流畅。
  关键词:深度学习;聊天机器人;强化学习
  中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)23-0227-02
  聊天机器人思想出现是从20世纪70年代,当时称为专家系统,由庞大的知识库构建而成。随着2015年人工智能技术的飞速发展,把深度学习模型应用到自然语言处理领域取得了很好的效果,成为近几年来了热门研究方向。聊天机器人分为两种方式,检索和生成两种方式。生成式聊天机器人与原来的检索不同,是指在人与机器进行对话时,机器自动组织语言回复。聊天机器人在未来有广阔的应用前景。但是目前聊天对话有很多不完善的地方,比如对话过程中容易产生安全回答,前后信息不一致以及容易使聊天陷入僵局等情况。在文章中我们会简单介绍生成式聊天机器人中所涉及的几种算法。
  1 基于RNN的seq2seq模型
  目前在深度学习模型中,循环神经网络(RNN)在自然语言处理领域中应用越来越广。但是因为RNN有一定局限性,一些学者在原来模型的基础上进行了改进,也就是LSTM和GRU模型。在对话模型中,我们需要对输入的文本进行处理,输入的文本信息转化成向量形式是最常见的方法,以向量形式输入到所选的深度模型中进行训练。在对话任务中,所选用的框架是seq2seq模型,这个框架一开始在自然语言处理领域中的翻译系统上取得了较好的效果,在聊天机器人的对话模型中,也取得了比较好的效果。Bahdanau等人后来在原来的深度框架模型上添加了attention机制,解决了循环神经网络中信息丢失的问题。
  1.1 聊天机器人中的关键算法
  在研究聊天机器人对话中,我们首先需要对输入的文本信息进行处理。一般是做向量化处理也就是将文本内容上下文信息用向量来表示。将文本信息转化成向量格式有两种方法:一种是文本分布式,另一种是文本向量空间模型(VSM)。词嵌入(Word Embedding)属于文本分布式中的一个方法也是文本处理的主流方式,指将文本信息映射到向量中,根据向量间的距离判断词语是否相近。
  RNN主要解决的是序列问题,也就是当前的输出不仅与当前时刻的输入有关还与前一时刻的输出有关,这就构成了前后词之间的关联。所以非常适合來解决文本处理的问题。但是RNN网络也存在诸多难以解决的问题,比如说数据集太大,训练难度会增加,容易产生的梯度消失和梯度爆炸的问题。在此基础上一些学者设计出了RNN两个变种LSTM(Long Short Term Memory Network) 和GRU(Gated Recurrent Unit Network)。
  LSTM和GRU与RNN的不同在于神经网络层中隐藏层设计的不同,因为LSTM带有记忆特性,所以能解决RNN中的长距离问题。另外GRU在隐藏层上做出了改进,主要是对前面状态中信息进行加权计算,离当前时刻越近的信息权值越大。另外在训练过程中,为了减少数据量少而引起的过拟合,所以在模型中引入了Drop out机制。Drop out指在训练过程中,去掉神经网络单元中某些单元,简化模型的结构,进而可以增强模型的泛化能力
  1.2 seq2seq 模型框架
  seq2seq模型也称为序列到序列模型,因为在翻译系统中取得了不错的效果,随后应用到聊天机器人中。seq2seq模型有两部分构成:编码器和解码器,引入到聊天机器人任务中,定义编码器对应的是问句,解码器对应的是回复的语句。
  从理论上讲seq2seq模型表现很好,但是在实际场景中训练数据效果不好。Bahdanau等人把注意力机制运用到了对话生成中,对于循环神经网络中随时间增长信息丢失的问题有了很好的解决方法,也提升了整个系统的效果。attention机制思想是编码器中输入词映射到解码器中对每个词都是有影响的,只是概率分布不同。
  2 基于深度强化学习的对话模型
  Alphago证实了强化学习技术的成功,也推动了强化学习技术在自然语言处理领域的发展。强化学习中智能体与环境进行交互,根据系统提前定义的奖励函数来判定智能体的行为是否合适。系统会给出一定的奖励或惩罚,最终目标是奖励函数最大化。
  2.1 奖励函数简介
  在智能聊天机器人对话系统中,强化学习模型所代表的含义是利用两个机器人不断的对话来模拟智能体与环境的交互过程,最后训练出我们想要的效果。马尔科夫决策过程包括动作,状态,策略,奖励函数等几个要素。其中奖励函数作为目标函数是最重要的因素。当每次都出现无意义的回答时,我们将给出惩罚。最后我们希望对话过程中所给的回答是有效的,并且在生成的语句中更多的是有意义的回复,保证对话的流畅性。
  我们可以自由设定聊天机器人中的奖励函数,第一个奖励函数可以定义为让对话产生新的信息。第二个奖励函数设定为问题与答案的相关度。第三个奖励函数设定为回答的语句中带有情绪的词语。第四个奖励函数设定为回答文本中不带有尴尬的词语出现,避免聊天陷入僵局。最后对几个奖励函数进行加权求和,奖励函数最大时对应的模型就是我们想要的模型。
  3 总结
  本文介绍了生成式聊天机器人中的主流算法模型,通过对算法的优化希望与聊天机器人对话语句更加的自然顺畅。我们首先介绍循环神经网络,然后简单说明seq2seq模型与attention机制的思想。由于聊天机器人经常给出一些安全回复,容易使对话陷入僵局,因此后来把强化学习算法引入到聊天机器人对话生成中。在一定程度上可以提升对话的流畅性。在未来的发展中,我们希望聊天机器人还拥有自己的情商,使生成语句更加自然顺畅并保持前后一致。
  参考文献:
  [1] Vinyals O, Le Q. A neural conversational model[J].arXiv preprint arXiv:1506.05869,2015.
  [2] Guo H. Generating text with deep reinforcement learning[J].arXiv preprint arXiv:1510.09202,2015.
  [3] Li J,Monroe W,Ritter A, et al. Deep reinforcement learning for dialogue generation[J].arXiv preprint arXiv:1606.01541,2016.
  [4] Van Hasselt H,Guez A, Silver D. Deep Reinforcement Learning with Double Q-Learning[C]//AAAI.2016:2094-2100.
  [5] Cuayahuitl H. Simpleds: A simple deep reinforcement learning dialogue system[M]//Dialogues with Social Robots. Springer Singapore, 2017:109-118
  [6] Lison P. Model-based bayesian reinforcement learning for dialogue management[J]. arXiv preprint arXiv:1304.1819,2013.
  [7] 曹东岩.基于强化学习的开放领域聊天机器人对话生成算法[D].哈尔滨:哈尔滨工业大学,2017.
  【通联编辑:唐一东】
其他文献
每年春天桃花盛开的时候,在三峡库区湖北省秭归县老县城归州城西1公里的吒溪河边的鸭子潭里,浮动着一种珍贵稀奇的小生物——桃花鱼。它像飘落的一簇簇桃花瓣,有淡红的,有洁白的,
对无机膜的制备方法及当今主要研究领域即膜设计、膜表面改性、膜结构及性能的测试与表征等进行了综合论述 ,并例举了无机膜在许多领域中的应用。 The preparation methods
随着经济的发展以及工业化程度的快速推进,地球的环境遭受到了极大的破坏,对人类的生存与发展极为不利.为了保护环境、减少经济发展为环境带来的污染与破坏,必须对环境污染源
在我国经济不断发展的同时,也带来了较多的环境问题和能源问题,因此,现阶段对于煤化工企业中废水的处理已经成为了企业发展首要解决的问题,所以,就需要企业首先要对煤化工废
广角或鱼眼镜头拍摄的图像视野大,图像信息量丰富,但是图像畸变失真严重,需要对其进行畸变校正以适应人类观察习惯。FPGA的数据并发处理速度快、可靠性高、体积小等特性为摄像校正系统提供了较好的硬件支持。基于嵌入式FPGA系统,采用等距投影扩展校正算法对畸变图像进行校正,校正过程中不需要烦琐的计算及标定靶标。实验表明,该算法移植到嵌入式FPGA平台上,运算时间短、校正图片清晰,能满足实时性要求。
我国建筑行业的不断发展带动了我国很多其他产业的发展.随着我国建筑行业的不断发展与进步,目前的电气工程及其自动化技术已经在建筑工程之中获得了极为广泛的应用,并且随着
潮州文化底蕴深厚但包装和宣传方面力度不够,特别是在手机APP方面宣传严重不足.本文旨在借助中国移动MM开发者社区进行潮文化APP应用开发,将潮州特色文化以十大手机APP的形式
目前城域网宽带压力大,得益于光通信技术与分组传送技术的发展,POTN技术对于升级城域网,满足当前用户侧对带宽的需求,效果非常显著.本文针对POTN技术进行了简单的分析,并结合
SiC棚板由于收缩缝的存在,烧制产品时容易落碴和被粉尘污染,同时火焰易窜过,而造成上层温度的波动和不均匀.为解决这一问题,研制了SiC棚板收缩缝填料,经实际使用,使用100次以
信息通信工程在现阶段社会发展和进步过程中占据着十分重要的地位,会直接影响到人们的生产与生活.积极采用科学合理的传输技术,提升信息通信工程的整体运用效果,是当前科研人