基于深度学习的多类标文本分类算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hujinjinliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网行业的飞速发展,信息的产生和传播达到空前的速度,数据量呈爆炸式增长。互联网中充斥着大量的文本、音频、视频等各类数据,文本信息无疑是其中体量最大的数据资源,要高效地组织管理这些海量的文本信息,文本分类是最基本关键的技术。在传统的分类任务中,一个样本往往只属于一个类别,现有的分类算法能够很好地处理这些单类标(sing label)分类问题。但是在实际的需求中,文本数据的复杂多变,一个样本往往与多个类别有联系,同时属于多个主题类别,对于这种多类标(multi label)文本分类问题,传统的分类算法难以处理。为此,设计高效准确的多类标文本分类算法具有很大的现实意义,得到了日益广泛的关注。一般多类标文本分类算法存在两个难点:一是文本数据特征维度高,有效特征少,存在稀疏性和冗余性;二是样本的类标之间存在一定的依赖关系,即类标之间呈现出高阶相关性。本文的主要研究内容是解决传统的多类标文本分类算法所遇到的瓶颈,用深度学习中的自编码器模型对文本语料进行有效地特征提取,对类标的相互依赖性进行有效地建模,设计实现ML-LSTM多类标分类算法。针对文本的特征的稀疏性和冗余性,本文提出基于自编码器(autoencoder)和最大池化(max pooling)的AE_P模型对文本的语义特征进行有效的提取。一般文本数据以向量空间模型方法进行表示,有效特征维度低,具有很大的稀疏性和冗余性。自编码器是一种非线性的特征提取模型,无需有监督的信息即可获得原始稀疏特征在低维空间的有效表达,能够显著地减小特征的稀疏性,max pooling操作能够有效降低特征冗余性,实验表明AE_P算法提取的特征能够提高最终分类结果的准确率。针对样本类标之间的依赖性,本文提出ML-LSTM模型。ML-LSTM采取将数据特征和类标相结合形成data-label embedding的训练方式,利用样本聚类、关联规则、频率法和随机法的四种序列化方法,在每个时刻采用长短期记忆网络(LSTM)结合经典分类方法对embedding进行集成建模预测,进一步得到样本的类标集合。类标之间的依赖关系在分类时能够得到很好的模拟,最后通过实验证明了ML-LSTM算法的有效性。
其他文献
随着微机电(micro electromechanical system,MEMS)惯性传感器精度的逐步提高,基于MEMS惯性传感器实现高精度行人导航定位成为可能。此类系统具有成本低、易携带、抗干扰能力
随着人口老龄化的日益加剧和下肢瘫痪者的逐渐增多,为解决他们在屋内的移动问题,坐垫机器人得到了应用。由于坐垫机器人工作于狭窄复杂的环境中,为了避免反复驱动和保证使用
波分复用光网络由于采用固定不变的波长通道间隔、信号速率、调制格式等,导致其网络资源利用率较低,难以满足用户对网络资源效率的要求。为了适应用户对不同粒度的带宽需求,
深空通信,指地球上的通信实体与处于深空的飞行器之间的通信[1]。为了实现地球和宇宙行星之间数据的可靠传输,需要研究和开发通用的数据交换网络架构。延迟/中断可容忍网络(D
由于无线传感器网络具有普及性、易用性、价格低廉等特征,如今在许多工业和科研中得到越来越多的应用。目前国内主要通过自动气象站来监测各种气象要素,但是由于其建设成本昂
高分辨率卫星信息产品科教服务平台简称高分科教服务平台是“高分辨率对地观测重大专项的子课题”之一,其目标是面向科研单位、高校遥感应用研究和行业应用研究。该平台具有
图是一种表达能力很强的数据结构,它可以表示现实世界中对象和对象之间的关系,如城市与城市间的道路连接、人之间的血缘关系。许多问题都可以用图表示再通过图算法解决。图和
随着科学研究和商业应用的发展,人工智能技术已在医疗、交通、安防、互联网金融等诸多领域得到广泛应用。生物特征识别作为人工智能技术中的重要分支受到国内外科研组织和学
随着集成电路技术和计算机技术的迅速发展,嵌入式系统性能提升的同时也使功耗问题成为制约系统设计和开发的重要因素。传统上处理器被认为是嵌入式系统中最耗能的部件,目前相
随着我国汽车工业快速发展,大中型客货车数量迅猛增加,机动车安全技术检验在保障车辆安全运行、预防和减少道路交通事故、保证人民生命财产安全发挥了重要作用[1]。其中道路