基于LDA模型的口语对话系统领域分类研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:huitianfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着文本分类技术的日趋成熟,其在口语对话系统领域分类中的应用也越来越深入;随着统计模型发展,跟规则方法相比较,其在文档归类技术中崭露头角。口语对话系统领域分类问题本质上可以看作文本分类问题,由于口语对话文本长度较短,可将其归到短文本分类问题中。由于短文本具有长度短、内容少、不能提供足够的词频共现、特征稀疏等问题,传统文本分类方法不能直接应用。当前,短文档分类问题备受关注并成为现如今文档分类领域研究热门方面。其中,基于文本扩充的短文本分类方法和借助外部知识源进行语义挖掘的短文本分类方法是主流研究方法。如何通过文本扩充、充分挖掘语义信息来获得好的短文本分类特征、提高短文本分类性能亟待解决,本论文基于以上问题展开相关研究工作。  该篇论文把语音识别获得的口语对话文档视作短文档,把口语对话系统领域归类问题视作短文档归类问题,主要围绕文本扩充和挖掘短文本语义信息重要方面,以文本分类技术、LDA模型、神经网络语言模型word2vec及文本分类算法KNN为重要支撑,采用基于词嵌入扩充和改进主题分布相似度口语对话系统领域分类方法,通过调节文本扩充长度、LDA模型主题个数、KNN分类近邻数等参数进行实验,对口语对话系统领域分类问题展开研究。针对口语对话系统中领域分类技术,该篇论文着重在以下两点展开研讨:  1.提出了词嵌入扩充口语对话文本领域分类方法。针对口语对话系统中口语对话文本长度短、内容少、特征稀疏的问题,本文采用神经网络语言模型word2vec对短文本进行扩充并采用 LDA主题模型进行口语对话文本领域分类。实验结果表明,与未经扩充的分类方法相比,该分类方法的平均准确率、平均召回率和平均F1值均有一定提高,且该方法具有稳健性。  2.提出了改进主题分布相似度的口语对话系统领域分类。针对口语对话文本表示模型VSM维度高、语义特征不明显的问题,本文以 LDA模型得出的主题分布作为分类特征,并根据LDA模型得出的主题-词分布矩阵对主题分布进行改进,将改进后的主题分布向量送入KNN分类器进行分类。实验结果表明,与VSM方法比较,基于主题分布相似度的口语对话系统领域分类方法的平均F1值提高4.5%,基于改进主题分布相似度的口语对话系统领域分类方法的平均F1值提高5.2%,验证了该方法的有效性。  本文首先就口语对话系统领域分类问题的理论基础进行阐述,如口语对话系统组成、文本分类技术、LDA模型建模及推理等。  其次,介绍两种口语对话文本归类要领,在 LDA模型分类基础上引入word2vec对口语对话文本进行扩充、在KNN分类基础上选取LDA模型参数作为分类特征并改进主题分布相似度,通过实验验证其分类性能。  最后,对口语对话文本领域分类相关研究和工作做出总结及展望。
其他文献
财务会计概念框架已经成为财务会计理论的核心内容。许多西方发达国家和国际会计准则委员会都非常重视对财务会计概念框架的研究,并已纷纷建立起各自的概念框架体系。在构建财务会计概念框架时,采取“两步走”的思路和步骤,即第一步先修改、完善基本准则,使其充当现阶段财务会计概念框架的角色;第二步,等到时机成熟,再将基本准则转化为真正的形式与实质相统一的财务会计概念框架。虽然《企业会计准则——基本准则》已发布,但
财务管理假设是具有十分重要的现实意义的,对于财务人员解决企业财务问题有重大的帮助。例如资金增值假设说明了财务管理存在的现实意义,风险与报酬同增假设又要求财务管理人员不能盲目追求资金的增值,因为过高的报酬会带来巨大的风险。此两项假设为科学地确立财务管理目标、合理安排资金结构、不断调整资金投向奠定了理论基矗风险报酬原理、利息率的预测原理、投资组合原理也都是依据此项假设展开论述的。在企业财务管理中,货币
伴随着社会的快速发展,汽车产业已成为现代社会的一个重要标志。在计算机和电子技术快速发展的背景下,汽车已经和电子技术紧密结合在一起,汽车的机械结构更加复杂,运行性能更
学位
血管内超声是目前临床普遍采用的诊断血管病变的介入性影像手段,特别是对冠心病的诊断起着举足轻重的作用。由于冠状动脉附着在心脏的外表面上,随着心脏的搏动有规律地运动,
学位
说话人转换是通过将一个说话人(源说话人)的语音个性特征转换成另一个说话人(目标说话人)的语音个性特征,而保持说话内容和情感特征不变的一门技术。经过转换后得到的声音要
近年来变化检测技术已广泛应用于动态视频监控,医疗诊断,自然灾害监测和绿洲覆盖监测等诸多领域。而合成孔径雷达(Synthetic Aperture Radar,SAR)由于其不惧雨雪等恶劣天候、可穿透地面覆盖植被、不易受光线强度影响等优势,正逐渐在变化检测研究中得到广泛使用。SAR遥感图像变化检测技术是通过分析相同地理位置不同时刻得到的遥感图像数据,来识别这段时间地面覆盖变化的过程。本文主要研究了基
一、战略管理会计在我国应用的现状  1.战略管理会计理论普及程度不高  众所周知,我国在进入20世纪80年代后,才开始系统地学习、引进西方的管理会计,至今已有20多年。通过这一阶段对理论知识的引进、介绍、普及,大部分会计人员已掌握一定的管理会计知识。因此在企业中传统的管理会计得到了较好的应用。但战略管理会计是伴随战略管理的出现而产生的。尽管英国管理学家西蒙斯(simmonds)于1981年就发表了
随着无线通信技术、微机电系统和传感技术的迅速发展,无线传感器网络的应用领域已经越来越广泛。传感器网络通常由体积小、价格低廉的传感器节点构成,这些节点具有信息收集、