论文部分内容阅读
网络购物已经成为人们生活中不缺少的购物方式。它具有方便、快捷等特点,使用户能够足不出户浏览和购买想要的商品。人们通过网络会话的方式向客服咨询商品信息。客服通常会同时回答多个用户提问的问题,导致服务质量差,容易使用户流失。如果有一个辅助问答系统帮助客服检索信息,并给出建议答案,将大大提高客服的服务效率与质量。问答系统在网络购物咨询方面具有广阔的应用前景。问答系统的效果通常依赖于知识库的规模及质量,因此从网络购物记录中提取问答对是构建整个系统的核心问题。在网络购物记录中存在多问句与多答案交叉的复杂对应关系,其最大特点就是答案的滞后性。用户连续提出多个问题,客服逐一的回答,问题和答案可能不是相邻且一一对应的。目前,知识库中的问答对多都是人工从复杂对应的关系中提取问答对,不仅费时费力、维护成本高,而且不能实时更新。为解决这一问题,本文把问句答案匹配的判断作为一个二分类任务,根据语料特点,设计了三个分类方法:基于特征匹配的方法是利用问句与答案中的句式类型、公共词序列、概念关系三个特征判断是否为匹配的问答对;基于冗余信息的方法是利用现有问答系统的检索功能,计算检索答案与候选答案相关度判断是否为匹配的问答对;基于词共现的方法是统计问句与答案中共同出现的词汇对,计算词汇的相关度来判断问句与答案是否匹配。对三个分类方法分别设置相应实验,结果表明它们都能有效的从网络购物记录中提取问答对。最后,本文将三个分类方法有机的组合起来,形成一个自训练模型框架。该框架能够利用少量的标注语料及大量未标注的语料迭代训练,从中提取问答对。经过多次迭代训练,自训练模型的准确度明显高于三个单一的分类方法。