论文部分内容阅读
随着社会科技的进步,各个领域对数据的关注度与日俱增,与此同时,科研人员对数据的敏感性和对数据的应用能力也不断增强,这一切使人们进入了大数据时代。但是在互联网中流动的不只有人们需要的可用资源,还包括大量干扰正常工作、误导大众的危害内容。在可用资源里,数据也是杂乱无章的,这不仅造成网络信息过载,也给人们带来了低效率的感受。因此,对数据进行系统的处理、精准的分类,使它们成为有特定用途的可用信息是科研人员的追求目标。本文在撰写的前期,先就当前文本分类的研究成果进行了一定程度的学习,这其中包括对国内和国外两部分成果的研究;然后,着重学习和分析了如何用SVM方法解决文本二分类问题,进而引申到多分类问题。SVM——支持向量机,属于机器学习中的一种方法,是以统计学习理论作为基础的,在文本分类、图像分类等许多领域都体现了很好的性能。在使用分类器之前,需要准备可靠的数据作为输入,以保证分类的高效性。本文通过学习与分析,决定在文本表示阶段做出一定的改变。文本在成为计算机能够识别的形式时,需要对自身的表现形式做某种转化。转化的方式有很多,可以把词转化成向量,或者最简单的二进制格式等。综合词语的语义和出现频率两方面因素,本文决定使用doc2vec算法作为文本表示方法。为此,本文的整体撰写框架如下:首先,对文本分类问题的研究现状和整体发展过程进行学习后,对本文的实验目的和想法做了全面的分析,明确了理论框架和实验流程。主要包括:对信息进行预处理,其分为文本的特征表示和特征提取两部分;接着对几种经典的分类器算法进行介绍,着重分析了支持向量机的基本原理。然后,介绍深度学习的主要内容和word2vec算法,以及在此算法基础上发展而来的doc2vec算法,对词向量模型进行比较,确定实验所使用的模型。最后,将实验需要的理论基础和思想介绍完毕后,将理论与实践结合,设计一个基于SVM的中文新闻文本分类模型。该模型的主要内容是:以doc2vec的输出作为多核SVM的输入,利用实验语料集,计算多个和矩阵,最后使用spg-gmkl训练并分类,实验结果可以证明多核SVM的优势与实用性。