社交媒体短文本分类方法研究

来源 :电子科技大学 | 被引量 : 11次 | 上传用户:fyfy76
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0技术和移动互联网技术的飞速发展,人们能随时随地在社交媒体中发布自己的所见所感,导致社交媒体中文本数据的爆炸式增长。不仅仅是普通用户,新闻记者、官方机构、政界领导人等也在社交媒体中发布消息,这使得社交媒体中蕴藏了大量有价值的信息,然而,文本长度短、外部格式以及内容上的不规范、垃圾信息庞杂等特性,导致社交媒体中文本分类技术面临严峻的挑战。传统分类方法不仅会造成文本特征向量的高稀疏性和维度灾难,同时还丧失了文本的语序信息,携带了噪声词句,导致语义特征向量表达能力不强。为了克服以上缺陷,本文先基于外部特征过滤掉格式极不规范的非新闻事件垃圾消息,对于保留下来的格式较规范的新闻事件消息,基于深度学习,自动提取文本的语义特征,再对其进行主题层面的多分类。基于此,本文的主要工作和创新点如下:1.提出基于外部特征的社交媒体短文本分类方法。针对社交媒体短文本高噪声、垃圾信息庞杂的特性,本文以Twitter为研究对象,基于推文格式提取了与推文词数、句式、情感倾向、特殊词、特殊字符等相关的16种外部特征,外部特征对新闻事件推文和非新闻事件垃圾推文有很好的区分度,并有效地降低了传统文本特征向量的维度和稀疏性。由于外部特征的相互独立和取值类型的多样,以及集成分类方法对基础分类器泛化性能的提升,本文最终选取随机森林的方法实现推文的二分类,从而达到过滤掉非新闻事件垃圾推文的目的。2.提出基于深度学习的社交媒体短文本分类方法。针对社交媒体短文本上下文语义信息稀疏、主题多样的特性,本文将深度学习模型C-LSTM运用到新闻事件推文的主题多分类任务中,由于深度学习模型集特征自提取以及分类于一体,因此,通过训练,C-LSTM不仅能自动提取社交媒体短文本的语义、语序、n-gram特性,避免了繁琐的人工特征构建工程,还通过输入门、遗忘门等特殊结构自动“遗忘”掉新闻事件推文中的噪声信息,直接捕捉与主题或情感直接相关的关键词句,从而基于主题实现对新闻事件推文的多分类。为了验证本文方法的有效性,对于基于外部特征的推文分类方法,本文使用已经标注的2400条推文作为训练集,通过交叉验证发现,本文方法的各项分类性能指标都比传统TF-IDF模型高13%左右,比主流方法高3%左右;对于基于语义的推文分类方法,本文使用了4种公开的社交媒体文本数据集来评估实验结果,通过交叉验证,本文的C-LSTM模型的分类准确率较CNN提高了3.51%,较传统word2vec加权构造文本向量的方法提高了7.28%。
其他文献
更年期综合征是中老年女性身心健康的主要威胁之一,其发病的机理较为复杂,从中医辨证施治的角度治疗更年期综合征在近年来取得了非常良好的成效,本文笔者结合多年的临床经验,
背景小儿气管异物是世界普遍存在的问题,异物导致的窒息是患者意外死亡的主要原因。手术医生和麻醉医生共用气道,且在气道异物取出过程中易出现各种变化,麻醉风险较高,麻醉呼
会议
从纸和板两个方面探讨了纸面石膏板不粘纸的原因,分析了影响石膏板粘结的各种因素。研究发现:护面纸吸水性过高或过低、透气度过低以及强度过低都会对纸面石膏板的粘结产生不利
城际轨道交通用于区域性经济圈内的城镇间快速交通联络,其车站与城市轨道交通、公交、长途汽车等其他公共交通之间的衔接紧密程度直接影响到交通功能的发挥.通过对城际轨道交
为了更好地推动海绵城市的建设与实施,促进城市内部雨洪管理模式与城市生态环境的发展,本研究梳理了中国海绵城市政策的发展历程,以华南地区的海绵城市为主要研究对象,并以4
良好的饮食习惯会影响一个人的一生。幼儿是处在神经心理发育迅速,对周围世界充满好奇心,表现出探索性行为的阶段。在进食时也会表现出强烈的自我进食欲望和参与意识。应允许
恶劣的资产质量和薄弱的信用风险管理是导致银行破产和银行危机的最主要原因,而通过提取充足的准备金,及时确认损失并予以核销,可以有效避免严重的信用风险积聚所可能引发的
3DSMax在室内设计效果图中的运用也相当广泛。在教学过程中,教师如何把室内设计中应该掌握的专业知识渗透给学生.如何把软件的应用与学生的就业相结合,这是教师在教学中要研究的
城市权利是哈维整个解放政治学事业的内核。作为一名马克思主义理论家,他更为关注当下历史情境中资本的城市空间布展问题,认为正是基于城市空间的生产,"叛逆的城市"才得以产
目的:探讨心脑血管病诊治中血脂检验的临床应用。方法:随机选择2011年10月-2012年11月我院收治的心脑血管患者,根据患者病情,将患者分为A、B两组,每组有50例患者。A组为心血