论文部分内容阅读
问题分类(QC)是智能问答系统的关键技术之一。问题分类与文本分类相似,其目标是为每一个自然语言问句分配一个类别标签,此类别代表的是问句期望的最终答案的类型,在问答系统中通过问题的类别信息对候选答案进行约束和过滤。近年来,随着问答系统的发展,问题分类越来越受到研究学者的关注。早期,学者们研究了基于规则的问题分类方法,由于规则不具有通用性,后来逐渐转变为基于机器学习的问题分类研究方法。在基于机器学习的研究方法中,最初研究人员主要探索了基于支持向量机(SVM)和最大熵模型(ME)在问题分类中的应用;目前,基于机器学习的问题分类模型存在几点不足之处:(1)传统机器学习方法(SVM,ME)处理的是定长数据,在将长度长短不一的问句转换为定长特征时会造成信息的丢失;(2)目前的研究方法没有考虑数据的领域信息,数据的领域差别会造成分类器性能的下降。针对上述问题,本文中我们提出了基于深层神经网络模型的问题分类方法,首先我们提出了一种基于特征融合的深层神经网络分类模型。在分类模型中,我们使用句子的unigram词语特征、词性特征以及Term Weight特征;分类网络的输入为多种特征向量融合得到的词嵌入;为解决句子长度长短不一的问题,网络中使用了BLSTM作为网络的隐含层,然后分别通过pooling层和softmax层完成从隐含层的输出结果中提取句子特征和对句子分类的工作。实验证明,通过融合多种句子特征,课题中提出的方法能够取得较好的分类结果,在粗粒度分类(coarse)和细粒度分类(fine)上分类准确率能达到94.0%和88.2%。其次,我们研究了领域自适应对问题分类的影响,领域自适应分类模型使用未标记的目标领域数据作为训练数据,通过预测句子的领域标签降低领域信息对分类器分类性能的影响,从而得到具有领域泛化性的分类模型。实验证明,通过考虑领域自适应,分类器的性能得到了进一步提高,粗粒度分类(coarse)和细粒度分类(fine)上的分类准确率分别提高了0.4%和1.2%。