论文部分内容阅读
社区问答服务能够为用户提出的自然语言问题提供一个简明、准确的答案。随着网络中用户交互信息的迅猛发展,问答社区越来越受到人们的关注。问题分类是社区问答中的一个基本任务,该任务不仅可以有效地减小答案的候选空间,也会影响答案的抽取策略。例如,根据问题的不同类别,问答系统采用不同的答案选择策略和知识库。问题分类可以看作一种特殊的文本分类任务。然而,问题分类与一般的文本分类任务存在明显的差别。首先,问题文本通常比较短,问题中包含的词汇数目非常有限。仅利用问题文本进行分类,会存在信息量非常缺乏的问题。其次,传统的词袋模型并不能捕捉文本中词的语义关系,因而会丢失大量有用信息;此外,已标注的问题资源比较匮乏,语料标注需要消耗大量的人力和物力。因此,如何加入更多的辅助特征扩充问题信息并充分利用未标注样本信息提升分类性能,是问题分类任务迫切需要解决的重要问题。本文主要针对社区问答服务中的问题分类方法展开深入研究,主要研究内容包括以下三个方面:一、本文提出了一种基于标签传播的半监督问题分类方法。其核心思想是:首先,将答案特征结合问题特征一起实现样本表示;然后,利用标签传播方法对已标注问题训练分类器,自动标注未标注问题的类别;最后,将初始标注的问题和自动标注的问题合并作为训练样本,利用最大熵模型对问题的测试文本进行分类。实验结果表明,基于标签传播的半监督分类方法能够充分利用未标注样本提升性能,明显优于其他的基准方法。二、本文提出了一种基于表示学习的半监督问题分类方法。该方法的特色在于,利用问题及其答案作为共同的上下文环境,学习词的分布式表示,从而充分利用样本中问题和答案隐含的分类信息。具体而言,首先,我们引入神经网络语言模型,利用问题与答案共同学习词向量表示,增加问题词向量的信息量;其次,加入大量未标注的问题与答案样本参与词向量学习,进一步增强问题词向量表示能力;最后,将已标注的问题样本以词向量形式表示作为训练样本,采用卷积神经网络建立问题分类模型。实验结果表明,基于表示学习的半监督问题分类方法能够充分利用词向量表示和大量未标注样本来提升性能,明显优于其他基准半监督分类方法。三、本文提出了一种基于双通道LSTM模型的双语问题分类方法。其核心思想是:首先,利用翻译语料分别扩充中文和英文语料,有效地减小单语语料标注的工作量;其次,将两种语言语料中的样本都分别用原始问题文本和其翻译文本表示,丰富训练样本的信息量;最后,提出了基于双通道的长短期记忆网络分类方法,充分利用这两组特征,构建问题分类器。实验结果表明,该方法可以获得较好的问题分类效果,优于其他基准方法。