论文部分内容阅读
随着文本分类技术的日趋成熟,其在口语对话系统领域分类中的应用也越来越深入;随着统计模型发展,跟规则方法相比较,其在文档归类技术中崭露头角。口语对话系统领域分类问题本质上可以看作文本分类问题,由于口语对话文本长度较短,可将其归到短文本分类问题中。由于短文本具有长度短、内容少、不能提供足够的词频共现、特征稀疏等问题,传统文本分类方法不能直接应用。当前,短文档分类问题备受关注并成为现如今文档分类领域研究热门方面。其中,基于文本扩充的短文本分类方法和借助外部知识源进行语义挖掘的短文本分类方法是主流研究方法。如何通过文本扩充、充分挖掘语义信息来获得好的短文本分类特征、提高短文本分类性能亟待解决,本论文基于以上问题展开相关研究工作。 该篇论文把语音识别获得的口语对话文档视作短文档,把口语对话系统领域归类问题视作短文档归类问题,主要围绕文本扩充和挖掘短文本语义信息重要方面,以文本分类技术、LDA模型、神经网络语言模型word2vec及文本分类算法KNN为重要支撑,采用基于词嵌入扩充和改进主题分布相似度口语对话系统领域分类方法,通过调节文本扩充长度、LDA模型主题个数、KNN分类近邻数等参数进行实验,对口语对话系统领域分类问题展开研究。针对口语对话系统中领域分类技术,该篇论文着重在以下两点展开研讨: 1.提出了词嵌入扩充口语对话文本领域分类方法。针对口语对话系统中口语对话文本长度短、内容少、特征稀疏的问题,本文采用神经网络语言模型word2vec对短文本进行扩充并采用 LDA主题模型进行口语对话文本领域分类。实验结果表明,与未经扩充的分类方法相比,该分类方法的平均准确率、平均召回率和平均F1值均有一定提高,且该方法具有稳健性。 2.提出了改进主题分布相似度的口语对话系统领域分类。针对口语对话文本表示模型VSM维度高、语义特征不明显的问题,本文以 LDA模型得出的主题分布作为分类特征,并根据LDA模型得出的主题-词分布矩阵对主题分布进行改进,将改进后的主题分布向量送入KNN分类器进行分类。实验结果表明,与VSM方法比较,基于主题分布相似度的口语对话系统领域分类方法的平均F1值提高4.5%,基于改进主题分布相似度的口语对话系统领域分类方法的平均F1值提高5.2%,验证了该方法的有效性。 本文首先就口语对话系统领域分类问题的理论基础进行阐述,如口语对话系统组成、文本分类技术、LDA模型建模及推理等。 其次,介绍两种口语对话文本归类要领,在 LDA模型分类基础上引入word2vec对口语对话文本进行扩充、在KNN分类基础上选取LDA模型参数作为分类特征并改进主题分布相似度,通过实验验证其分类性能。 最后,对口语对话文本领域分类相关研究和工作做出总结及展望。