论文部分内容阅读
近年来,开放域(闲聊型)对话系统越来越受到人们的关注,相对于传统信息服务形式(如问答系统、搜索引擎等),开放域对话系统提供更丰富语义内容和更有效的交互模式,这些特性使得其在可预见的未来生活中越来越普及,因此开放域对话系统相关技术的研究具有极大的经济效应和社会价值。随着深度学习在自然语言处理领域的飞速发展,对话系统正伴随着便携移动设备市场的拓展走向成熟,在客服、金融、医疗、教育和生活服务等方面应用广泛。开放域对话系统按照其回复产生的方式可以分为检索式与生成式两种方式:检索式对话系统通过匹配技术从系统回复库中检索与用户查询匹配的话语并排序,选取出排名最高的回复,该方法具有回复质量高的特点,但是其依赖于人工撰写的大量对话数据;而生成式对话系统基于数据驱动的方法能训练回复生成模型,该方法具有灵活性更好并可自动生成新的回复等特点,但是容易生成通用的无内容回复。目前的开放域对话模型研究工作大多基于神经网络的方法,由一个端到端的神经网络模型产生对话回复或者对候选回复排序。这种端到端模型的缺点在于难以解释对话的生成或排序过程。为了增加对话过程的可解释性并避免开放域对话系统两类方法的主要问题,本课题研究了融合主题的检索式对话系统,通过用户当前输入与历史对话信息预测回复的关键词与主题信息,并利用关键词与主题检索候选回复进行排序,从而保证回复的多样性。本文主要进行了以下三项研究工作:(1)对话数据的关键词抽取建模。为了从无标签的大量对话数据中获得对话的主题信息,本文对聊天数据进行了人工标注,提出了序列标注方法与分词信息结合的关键词抽取模型,从对话中抽取关键词,并通过实验验证模型的性能。(2)对话主题与主题词预测建模。为了建模多轮对话场景中的主题迁移与主题的一对多现象等,提出了基于序列生成方法的主题预测模型,并使用变分模型建模关键词预测任务,最后通过实验验证模型能够达到预期效果。(3)构建融合主题的检索式对话系统。结合前两章的研究内容,提出融合主题信息的检索式对话系统,使用预测的回复主题与主题词检索候选回复并排序。并构建了一个演示系统,能对用户的输入提供主题相关的回复。