论文部分内容阅读
随着互联网行业的飞速发展,信息的产生和传播达到空前的速度,数据量呈爆炸式增长。互联网中充斥着大量的文本、音频、视频等各类数据,文本信息无疑是其中体量最大的数据资源,要高效地组织管理这些海量的文本信息,文本分类是最基本关键的技术。在传统的分类任务中,一个样本往往只属于一个类别,现有的分类算法能够很好地处理这些单类标(sing label)分类问题。但是在实际的需求中,文本数据的复杂多变,一个样本往往与多个类别有联系,同时属于多个主题类别,对于这种多类标(multi label)文本分类问题,传统的分类算法难以处理。为此,设计高效准确的多类标文本分类算法具有很大的现实意义,得到了日益广泛的关注。一般多类标文本分类算法存在两个难点:一是文本数据特征维度高,有效特征少,存在稀疏性和冗余性;二是样本的类标之间存在一定的依赖关系,即类标之间呈现出高阶相关性。本文的主要研究内容是解决传统的多类标文本分类算法所遇到的瓶颈,用深度学习中的自编码器模型对文本语料进行有效地特征提取,对类标的相互依赖性进行有效地建模,设计实现ML-LSTM多类标分类算法。针对文本的特征的稀疏性和冗余性,本文提出基于自编码器(autoencoder)和最大池化(max pooling)的AE_P模型对文本的语义特征进行有效的提取。一般文本数据以向量空间模型方法进行表示,有效特征维度低,具有很大的稀疏性和冗余性。自编码器是一种非线性的特征提取模型,无需有监督的信息即可获得原始稀疏特征在低维空间的有效表达,能够显著地减小特征的稀疏性,max pooling操作能够有效降低特征冗余性,实验表明AE_P算法提取的特征能够提高最终分类结果的准确率。针对样本类标之间的依赖性,本文提出ML-LSTM模型。ML-LSTM采取将数据特征和类标相结合形成data-label embedding的训练方式,利用样本聚类、关联规则、频率法和随机法的四种序列化方法,在每个时刻采用长短期记忆网络(LSTM)结合经典分类方法对embedding进行集成建模预测,进一步得到样本的类标集合。类标之间的依赖关系在分类时能够得到很好的模拟,最后通过实验证明了ML-LSTM算法的有效性。