论文部分内容阅读
在新媒体发展浪潮中,微博已经成为国内最大的社交媒体平台之一,人们在日常生生活中习惯于通过微博获取信息、交流情感和表达意见,使得微博成为具有即时讯息发布、社交互动、新闻报道和舆论导向等多功能的重要综合平台。正是因为微博具有便捷性、真实性、广泛性、即时性等特点,某些微博用户以不同的目的在热门微博下发表了大量的垃圾评论,这些垃圾评论的出现不仅使得网民之间的交流受阻,而且使得某些网民受骗上当,甚至阻碍了面向评论的数据挖掘人员的工作,所以对于垃圾评论的识别工作具有重要意义。本文针对微博垃圾评论分类的相关技术点进行研究,基于卷积神经网络模型并结合词向量的文本表示方法,取得的相关研究成果如下:1、目前获取微博数据的方法主要是网络爬虫和微博开放平台API两种,本文提出了一种基于cookie与正则表达式的方法获取微博数据。经实验表明,该方法不仅操作简单,而且数据获取速度快。2、针对当前词向量模型Word2vec的基本原理和特点,其尽管考虑了词语之间的对应性和相似性,但忽略了上下文中局部词语排序的特殊性,这在某些情况下会导致文本语义的缺失和失真。提出了一种基于卷积神经网络文本分类的词向量模型,即以Word2vec词向量模型为基础结合N-Gram特征,其提取得到的词向量(Word2vec-NG向量),作为卷积神经网络模型的输入。经过几组对比实验分析表明,本文提出的方法通过精确率(precision)、召回率(recall)和F1值三个评价指标证明了文本分类的效果得到了有效的提升。3、本文针对支持向量机和卷积神经网络的优缺点,提出利用卷积神经网络进行特征提取,利用支持向量机进行分类,将CNN与SVM相结合以提升分类效果。通过对微博评论数据集的实验将本文方法与其它几种典型的方法进行对比分析,CNN-SVM模型性能优于其他算法,不仅运行速度更快,而且识别准确率更高。