中文微博情绪分析

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:hongwei3330857
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,以各种新闻、博客、论坛等为来源的信息呈现出海量增加的态势。微博,又名微型博客,是一种基于web技术的网络用户信息分享平台,用户方便地通过PC、移动设备登录,微博为人们提供跨越时间、空间的通讯方式,可以为人们提供一个展示个性、表达感情的空间。微博的一大显著特征是它的实时性,即每时每刻都会产生许多带有情绪色彩的信息。情绪分析指的是针对说话者在表达信息时所含有的内在情绪进行相应地分析和归纳,例如可以对他们的观点、态度等方面进行深入地分析和归类,以至于可以从中既快速又精确地捕捉关键信息。这样的分析和归类结果可以应用于许多实际的场景,以企业员工微博为例,可以通过微博内容的情绪分析,从侧面得出员工对于企业决策、制度等等的态度,为企业政策更好的落实和执行进行有力支持。本论文围绕中文微博内容情绪的分析和研究,综合运用了自然语言处理、机器学习技术。主要完成的工作有:(1)中文微博情绪分析,通过文本去噪、基于同义词词林和互信息量的情绪词典扩展等准备工作,使用TF-IDF对文本中的关键情感词计算权重值,并以此权重对微博文本提取特征矩阵。根据特征矩阵高维、稀疏,采用线性SVM(Linear SVM)分类器对微博进行情绪类别(anger愤怒、disgust厌恶、fear恐惧、happiness高兴、like喜好、sadness悲伤、surprise惊讶、none无情绪中的一种)分析。(2)微博中的每个句子有无情绪判断,使用LDA(隐狄利克雷)算法得到微博句子与隐含主题的对应概率矩阵,以此作为文本特征矩阵,使用非线性SVM进行是否包含情绪的判断。(3)句子的主要情绪和次要情绪的判断,使用句子成分分析法,对句子中出现的各类情绪词、表情以及影响其权重的程度副词、关联词、双重否定词等进行综合考虑,计算权重和,按照值大小排序确定主要、次要情绪。本论文通过对官方语料采用各种分类模型的实验,在中文微博情绪分析任务中,结合微博文本的特点,创新性地采用了TF-IDF和线性SVM(Linear SVM)的方法,并取得了较好的结果,分类器的分类效果在参赛论文实验结果中位于前列,证明了本论文方法的可行性。
其他文献
目的:研究经皮膀胱造口气压弹道碎石术治疗结石直径≥2.5cm膀胱结石患者的临床效果。方法:将2016年5月-2018年2月笔者所在医院收治的结石直径≥2.5cm膀胱结石患者76例随机分
通过不同工艺下熔坨余热加热矿石量的计算,分析了电熔镁砂熔坨余热回收利用的可行性,表明电熔镁砂熔坨的余热有很大的回收利用价值。
针对车路协同在交通监控中的应用需求,本文研究了RSU设施选址问题,在分析了与传统交通信息检测设施布局问题的区别之后提出了RSU设施布局的重要度排序算法及3种节点重要度计
<正>传统金属工艺中的苗族银饰反映着苗族人对美的追求,苗族银饰的造型和使用方式蕴含着对美好生活的寄托。苗族没有自己的文字,他们在长年的迁徙和战争中,一次次被迫背井离
中华传统文化是几大古文明中唯一一个从未间断过的文化,其顽强的生命力是显而易见的。因此,继承与弘扬中华传统文化无疑具有十分重要的意义。高校培养的大学生是未来的建设者,因
改革开放以来,我国农民工群体逐渐形成了禀赋代际差异的两代农民工,代际禀赋差异导致农民工消费行为的代际变化,使两代农民工产生了不同的身份认同:大部分老一代农民工消费行
2018年10月26日,全国人大常委会正式审议通过《关于修改〈中华人民共和国刑事诉讼法〉的决定》,刑事速裁程序与认罪认罚从宽制度由此正式入法,开始在全国范围内落地实施。$$回顾
报纸
为掌握煤焦对NO异相还原反应规律,揭示氧燃烧方式下NOx排放量少的微观机理基于密度泛函理论和过渡态原理,使用DMOL3模块在分子水平上研究了在富氧燃烧条件下CO参与煤焦还原NO
21世纪以来,文化产业凭借其独特的产业价值及广泛的渗透力和影响力,迅速成为全球经济及现代产业的发展新亮点。作为文化产业的重要组成部分,文化休闲娱乐业正逐步替代传统产
目的将以氧化铝(Al_2O_3)和氧化锆(ZrO_2)作为陶瓷原料,加入不同质量比的SiCw(0wt%、3wt%、5wt%、7wt%),从而制得4种SiCw/ZTA复合陶瓷托槽用材料作为被测试材料。通过MTT比色法体外细胞毒性实验和急性溶血实验来判定四种SiCw/ZTA陶瓷材料的生物安全性能;并通过万能试验机和维氏硬度仪检测四种SiCw/ZTA陶瓷材料的断裂韧性、弹性模量、维氏硬度,计算脆性指数,