基于深度学习的问题分类的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wuxinghui_1975
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问题分类(QC)是智能问答系统的关键技术之一。问题分类与文本分类相似,其目标是为每一个自然语言问句分配一个类别标签,此类别代表的是问句期望的最终答案的类型,在问答系统中通过问题的类别信息对候选答案进行约束和过滤。近年来,随着问答系统的发展,问题分类越来越受到研究学者的关注。早期,学者们研究了基于规则的问题分类方法,由于规则不具有通用性,后来逐渐转变为基于机器学习的问题分类研究方法。在基于机器学习的研究方法中,最初研究人员主要探索了基于支持向量机(SVM)和最大熵模型(ME)在问题分类中的应用;目前,基于机器学习的问题分类模型存在几点不足之处:(1)传统机器学习方法(SVM,ME)处理的是定长数据,在将长度长短不一的问句转换为定长特征时会造成信息的丢失;(2)目前的研究方法没有考虑数据的领域信息,数据的领域差别会造成分类器性能的下降。针对上述问题,本文中我们提出了基于深层神经网络模型的问题分类方法,首先我们提出了一种基于特征融合的深层神经网络分类模型。在分类模型中,我们使用句子的unigram词语特征、词性特征以及Term Weight特征;分类网络的输入为多种特征向量融合得到的词嵌入;为解决句子长度长短不一的问题,网络中使用了BLSTM作为网络的隐含层,然后分别通过pooling层和softmax层完成从隐含层的输出结果中提取句子特征和对句子分类的工作。实验证明,通过融合多种句子特征,课题中提出的方法能够取得较好的分类结果,在粗粒度分类(coarse)和细粒度分类(fine)上分类准确率能达到94.0%和88.2%。其次,我们研究了领域自适应对问题分类的影响,领域自适应分类模型使用未标记的目标领域数据作为训练数据,通过预测句子的领域标签降低领域信息对分类器分类性能的影响,从而得到具有领域泛化性的分类模型。实验证明,通过考虑领域自适应,分类器的性能得到了进一步提高,粗粒度分类(coarse)和细粒度分类(fine)上的分类准确率分别提高了0.4%和1.2%。
其他文献
操作系统是计算机科学的重要学科,研究操作系统对于理解计算机的工作原理和将计算机更好的应用于生产和生活都具有重要意义。然而,由于操作系统包含许多复杂而抽象的概念和算
互联网的飞速发展使得当前的网络环境发生了巨大变化:网络系统愈加复杂异构,网络环境多样性,服务质量更加难以控制,互联网薄弱的服务定制能力,以及对网络资源和用户的管理变得越来
随着多样化的用户需求,当前网络系统越来越复杂,致使网络整体性能及端到端系统性能得不到保障。受限于传统网络层次化结构的限制,当前网络元素不能感知其它网络元素的各种行
图像分割技术是图像识别、分析的基础,其主要应用领域包括智能移动机器人的场景理解、智能视频监控中的运动目标提取、基于内容的图像检索、基于内容的图像压缩等,本文首先对
IP_TASCM(IP Trace Analysis System based on Code Moving)数据平台是CERNET华东(北)地区网络中心,为了支持网络测量数据的整理和分析所开发的一个IP TRACE采集、分析和结果共享的
动态视觉敏感器闭环激励源是一种为动态视觉敏感器提供动态目标的视觉动态模拟器,为视觉位置姿态测量敏感器提供光学激励源,可以模拟视觉测量目标相对视觉敏感器在120米到0.9
路由协议是无线传感器网络的一个关键基础技术,由于节点能量得不到二次补充,因此,路由协议的首要目的就是节能。在大规模的数据收集网络中,节点以多跳的形式周期性地传输数据
随着数据存储设备的存储成本不断降低,数据存储已经不再是决定系统性能的主要因素,转而数据存储系统的可用性成为了当前评价系统性能的重要指标。本文从高可用性的角度出发,
网络技术的不断发展为基于公开网络的即时通信提供了便利,但随之带来的安全问题却不容忽视。在开放的网络中,密钥建立(Key establishment)是保证后续通信安全的一种重要机制。利
由于射频识别技术拥有数据信息实时改写的优越特性,非接触智能卡、射频标签当中常常存放的是重要的用户信息,甚至是隐私信息,这对于系统攻击者、黑客来讲,留下了进行安全攻击