中文微博情感倾向性分析研究

被引量 : 0次 | 上传用户:bigjohn6120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入Web2.0时代以来,网络深深影响并改变着人们的生活。近年来出现的微博以其内容简洁和实时交互的特点深受大家的欢迎。越来越多的人选择在微博平台上分享信息,以及观点和情感的交流。情感倾向分析是指通过分析说话者在传达信息时所蕴含的情绪状态,对说话者的态度和意见进行判断、评估。而微博的情感倾向分析主要是判断微博文本的情感倾向性,即属于正面、负面和中性。通过对用户的微博信息进行情感倾向分析,可以实现微博营销、舆情监控、品牌宣传等。目前已有的相对成熟的微博情感倾向分析研究大部分上是针对于英文微博的,国外对英文微博的研究成果应用到中文微博领域存在明显的局限性。而对中文微博的情感倾向性分析研究基本上处于初级阶段,目前研究中存在的一个难点是,如何建立一个完备的情感词典来对微博中的情感词汇进行特征提取。对此本文就如何建立一个更加全面和完善的微博情感词典展开了工作。本文对目前已有的情感词典资源进行分析、处理,包括有NTUSD情感词典,知网情感分析词语集,同时整理了网络流行情感词汇、新浪微博平台的常用表情符号,从而首先构建出一个基础情感词典;然后基于新浪微博的语料数据,采用扩展的SO-PMI算法来提取出微博领域中具有情感色彩的词语,构建了一个含有377个正面情感词汇,1108个负面情感词汇的面向微博的领域情感词典,进一步增强了情感词典的完整性和覆盖面;接着通过构造词语倾向性函数,以计算汉字频率的方式计算基础情感词典、微博领域情感词典中每个情感词汇的极性强度,情感词的极性强度的量化计算,提高了词语情感强度的准确性;最后将扩充后的基础情感词典和微博领域情感词典整合,构建出一个含有5527个正面情感词汇和10615个负面情感词汇的情感词典表。基于扩展后的情感词典,针对每一条微博消息文本数据进行预处理,采用情感词典表进行微博语料的特征提取,以及对微博情感符号、否定词,程度副词等修饰词语的分析、处理,以及词汇组合模型的计算,最后作加权求和处理得出每条微博的情感倾向性,从而实现了一个对中文微博进行情感倾向判别的系统原型。本文实验中所使用的新浪微博语料数据来源于数据堂,通过人工标注的的微博消息和本系统的判别结果相对比验证,实验结果表明本系统的分类最高准确率为88%,平均准确率为71.3%;最高召回率为86%,平均召回率为68.6%;最大F1值为75.1%,平均F1值为68.1%,因此取得了一定的效果。
其他文献
近年来,美国得克萨斯州电力可靠性委员会(electricreliability council of Texas,ERCOT)在风电调度运行管理方面积累了丰富经验。该地区电网风电发展迅猛,风电装机容量位居美
明秀园位于广西武鸣县境内,造园艺术独特,是广西南宁现存最早的传统园林,与玉林谢鲁山庄、桂林雁山园齐享“广西三大古典园林”称号。明秀园造园于广西真山真水的自然环境之
现代电子技术的发展日新月异,从上世纪六十年代开始,集成电路按照摩尔定律发展,每隔18个月可容纳晶体管数目增加-倍,性能也提高一倍。随着性能不断提高,集成电路的内部运行频
本文针对我国股票市场,对四种常用技术分析指标的参数设置进行了实证研究。通过计算股价波动与技术分析指标各分析量之间的相关关系,验证参数设置的科学性;并采用抽样调查的
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
对上海大型体育赛事旅游进行了研究,在探讨上海赛事旅游发展现状的基础上,分析了上海赛事旅游发展的优势、劣势、机遇以及面临的挑战,构建了上海大型体育赛事旅游产品体系,提
印刷电子技术的发展促使导电油墨的应用前景非常值得期待。本文研制的是纳米银导电油墨,首先采用液相化学还原法,以水合肼为还原剂,以PVP(聚乙烯毗咯烷酮)为表面分散剂,还原
针对电网安全运行评价的需要,构建一套较完整的多层次事前综合评价指标体系,提出一种基于多层次灰色面积关联分析法(multi-level grey area relational analysis,MGARA)的电
随着工业的发展,噪声危害越来越严重,日益为人们所注意,并被列为社会主要公害之一。 怎样控制噪声对人的危害呢?我认为,采取工艺技术措施,控制或消除各种机器发出的噪声,当然
文化建筑代表着一个城市的文化理念和生活价值观,同时承担着代表所在城市反映历史渊源和表达未来理想的双重责任。但仅靠文化建筑本身并不能真实地反映社会文化发展的全部,真