论文部分内容阅读
网络以一种全新的信息传播方式影响和改变着我们的生活,也让我们不经意进入了一种大众传媒的新时代中。在网络中人人都可以随时发布信息,这导致了网络信息的泛滥,同时也导致了网络垃圾信息的泛滥。近几年,深度学习技术迅猛发展,大大改变了自然语言处理领域的现状。本文针对Quora网站上的提问标题作为文本数据进行分析,希望识别出其中的垃圾信息即虚假提问。由于数据的特殊性,很多提问文本作为垃圾信息具有一定的隐蔽性。传统的基于词频的机器学习方法的表现受到了限制,这类问题对我们的模型和效果提出了新的要求。因此,本文同时运用机器学习和深度学习的方法,进行对比研究,探索各种方法在Quora数据集上的表现情况。本文采用的传统机器学习方法分别是朴素贝叶斯模型和逻辑回归模型。在传统机器学习方法中,我们通过TF-IDF技术将文本转化成向量,作为模型的输入,通过对模型超参数进行调整,提高模型分类效果,然而,这两种单个模型的表现均不优秀。因此,本文又将两种分类的结果作为输入,用岭回归构建堆叠法集成模型,并通过调整正则化项系数,使模型效果提升,同时避免过拟合。最优秀的传统机器学习模型达到了0.60436的F1-score。在本文采用的深度学习方法中,本文使用词嵌入技术将每个词转化为固定维度的向量,一篇文档则转化成矩阵形式,作为模型的输入。本文共选取了三种预训练词向量,并一一进行实验。然后,本文依次使用了卷积神经网络,循环神经网络,胶囊神经网络作为分类器进行预测分类。在卷积神经网络中,本文采用的架构是通过四组卷积层和池化层得到输出结果,再通过平坦化以及全连接层预测最后的分类。在循环神经网络中,本文采用的架构是词嵌入层加上两个双向循环神经网络再加上全连接层预测最后的分类。在胶囊神经网络中,本文采用的架构是词嵌入层加上空间随机失活层加上双向门限循环单元层加上胶囊神经网络,最后用全连接层预测最后的分类。实验结果表明,三种深度学习的方法效果均远优于传统机器学习方法,最优秀的是胶囊神经网络,得到测试集F1-score为0.69782。但是,深度学习模型也有其不足之处,由于其参数量较大,模型训练所需时间较长。如何在不损失模型精度的同时,提升模型的训练效果,将会成为今后研究的重点。