论文部分内容阅读
随着大数据时代的到来,用户生成内容成为互联网的重要基石。针对用户生成内容的文本主题分类作为数据挖掘的基础工作,在内容检索和信息筛选中应用广泛。文本主题分类的核心问题可分为两部分:文本表示和分类模型。在自然语言处理领域,最常用的文本表示方法为词袋模型,该方法认为文档是无序词项的集合。由于丢弃了词序、语法等文档结构信息,并存在数据稀疏的问题,因此,早期基于该方法的文本分类研究,往往只能对特定语料带来性能提升,无法满足海量用户生成数据的需求。近年来,对文本分类问题的改进研究主要集中于深度学习方法。本文针对互联网生成内容进行了文本主题分类研究,使用分布式词向量对文本进行表示,使用卷积神经网络作为分类模型,具体工作如下:对分布式词向量表示方法进行研究与实验分析。本文分析了现有的词向量表示技术,包括随机正交词向量、基于上下文的word2vec词向量模型和基于“词-词”关联矩阵分解的GloVe词向量模型;并针对三种词向量模型在对词义建模过程中的不足,提出基于主题模型的topic2vec词向量表示方法。该方法在词的上下文空间中融入了全局文档主题信息,克服了此前三种词向量模型无法获取全局文档信息的问题。本文通过词项的语义特征对比实验和文本分类实验对不同词向量的性能进行评估,实验结果表明,通过topic2vec训练词向量,较现有的词向量表示技术,有显著的提升。基于卷积神经网络对中文文本分类模型进行研究与实验分析。本文研究了卷积神经网络在中文文本分类问题中的应用,并选取具有代表性的互联网用户内容生成社区“知乎”作为中文语料,以不同的分布式词向量表示方法作为模型的输入,对其进行分类实验与分析。实验结果表明,利用topic2vec词向量表示的卷积神经网络,在长内容文本和短标题文本的分类问题中较已知词向量模型均有显著提高。