论文部分内容阅读
随着Web2.0技术和移动互联网技术的飞速发展,人们能随时随地在社交媒体中发布自己的所见所感,导致社交媒体中文本数据的爆炸式增长。不仅仅是普通用户,新闻记者、官方机构、政界领导人等也在社交媒体中发布消息,这使得社交媒体中蕴藏了大量有价值的信息,然而,文本长度短、外部格式以及内容上的不规范、垃圾信息庞杂等特性,导致社交媒体中文本分类技术面临严峻的挑战。传统分类方法不仅会造成文本特征向量的高稀疏性和维度灾难,同时还丧失了文本的语序信息,携带了噪声词句,导致语义特征向量表达能力不强。为了克服以上缺陷,本文先基于外部特征过滤掉格式极不规范的非新闻事件垃圾消息,对于保留下来的格式较规范的新闻事件消息,基于深度学习,自动提取文本的语义特征,再对其进行主题层面的多分类。基于此,本文的主要工作和创新点如下:1.提出基于外部特征的社交媒体短文本分类方法。针对社交媒体短文本高噪声、垃圾信息庞杂的特性,本文以Twitter为研究对象,基于推文格式提取了与推文词数、句式、情感倾向、特殊词、特殊字符等相关的16种外部特征,外部特征对新闻事件推文和非新闻事件垃圾推文有很好的区分度,并有效地降低了传统文本特征向量的维度和稀疏性。由于外部特征的相互独立和取值类型的多样,以及集成分类方法对基础分类器泛化性能的提升,本文最终选取随机森林的方法实现推文的二分类,从而达到过滤掉非新闻事件垃圾推文的目的。2.提出基于深度学习的社交媒体短文本分类方法。针对社交媒体短文本上下文语义信息稀疏、主题多样的特性,本文将深度学习模型C-LSTM运用到新闻事件推文的主题多分类任务中,由于深度学习模型集特征自提取以及分类于一体,因此,通过训练,C-LSTM不仅能自动提取社交媒体短文本的语义、语序、n-gram特性,避免了繁琐的人工特征构建工程,还通过输入门、遗忘门等特殊结构自动“遗忘”掉新闻事件推文中的噪声信息,直接捕捉与主题或情感直接相关的关键词句,从而基于主题实现对新闻事件推文的多分类。为了验证本文方法的有效性,对于基于外部特征的推文分类方法,本文使用已经标注的2400条推文作为训练集,通过交叉验证发现,本文方法的各项分类性能指标都比传统TF-IDF模型高13%左右,比主流方法高3%左右;对于基于语义的推文分类方法,本文使用了4种公开的社交媒体文本数据集来评估实验结果,通过交叉验证,本文的C-LSTM模型的分类准确率较CNN提高了3.51%,较传统word2vec加权构造文本向量的方法提高了7.28%。