融合表情符号的微博文本倾向性分析

被引量 : 0次 | 上传用户:jklzqren12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代社会中,随着互联网和新媒体的飞速发展,微博呈现爆发性的增长,越来越多的人开始使用微博。在微博上,人们可以实时发布消息来表达对现实生活中各种问题的观点看法,讨论当前热点话题,共享信息资源等。微博用户之间通过相互关注,相互转发和评论使微博中的信息丰富,因而形成了海量的微博情感信息。对微博中的信息进行倾向性分析,分析出微博用户对重大事件、企业产品的观点看法,对网络舆情预警与分析、市场产品调研和市场营销等应用有着十分重要的意义。现有的中文倾向性分析主要集中在产品评论、新闻报道等领域,而微博作为新兴的社交网络媒体,目前针对微博的倾向性分析还是采用原有的倾向性分析方法,缺少对微博相关特征的分析。本文针对微博的特点,研究工作主要包含如下三个方面:1.针对微博短文本的语言特点,提出了融合互信息的改进N-Gram微博新词发现方法。微博是一种极其活跃且口语化的语言,每天都会有很多新词产生,这些新词往往带有一定的情感倾向。本文针对微博中新词的特点,提出了一种融合互信息和N-Gram微博新词发现算法,通过N-Gram算法从微博语料中抽取字符串作为候选特征字,同时计算其互信息来合并候选特征词,从而识别出语料中的新词。实验结果表明,该方法对新词的识别具有较好的效果,可应用于微博的新词发现。2.针对微博中表情符号的特点,提出了基于统计的微博表情符号词典构建方法。表情符号是一种十分重要的情感表达形式,已成为微博中人们交流沟通的重要方式。本文根据微博中表情符号的相关特点,提出了一种基于统计的表情符号词典构建方法,根据对微博语料中与表情符号相邻的文本的情感分析,从而确定表情符号的倾向性,进而完成表情符号词典的构建。实验结果表明,使用表情符号词典提高了微博倾向性分析的准确性,达到了较好的实验效果。3.针对中文微博的特点,提出融合表情符号和微博新词的微博文本倾向性分析算法。本文在结合新词发现算法和构建的微博表情词典,提出了一种融合表情符号和微博新词的微博文本倾向性分析算法。该算法以微博文本中的情感倾向元素以及相关的语法特征作为情感倾向信息,在原有的以情感词、程度副词、否定词为主的传统情感词典基础上,针对用户的使用习惯及微博语言特征,添加了表情符号和网络新词,以有效地提升微博倾向性分析的准确度。与此同时,本算法还对微博文本中句子的结构、所处的位置等信息进行分析,从而更好的获得微博消息的情感倾向值。
其他文献
<正>随着围产医学技术迅速发展,近年来,早产儿成活率明显提高,但是早产儿极易引起多种并发症,尤其极低体重儿更易引起喂养不耐受。改善早产儿的营养状况,对早产儿体格智力发
<正>时下,新课程改革正不断深入,课堂上要求老师少讲、学生多讲,让学生真正成为课堂的主人,甚至出现了江苏洋思中学的教学理念:"一节课教师只讲十五分钟"。这些观点及倡导,其
目的探讨吻合器痔上黏膜环切术患者术后并发症的发生状况,总结患者术后并发症的护理方法。方法选择2014年7月至2016年7月作为此次研究的时间段,在此时间段内选择本院收治行吻
首先对现今的乳制品行业的发展和竞争现状进行了分析,其次介绍了CPFR的基本概念和运作模式。最后根据乳制品供应链管理所面临的问题,提出了将基于CPFR的供应链管理模式引入我
本文以品牌资产中的核心资产——商标为视角,介绍了在移动互联网环境下商标侵权的典型行为,论述了保护商标对品牌资产管理的重要性,最后为在移动互联网环境下如何实现对商标
白头叶猴和东黑冠长臂猿均属世界极度濒危物种,同是八桂喀斯特山区的精灵。前者活跃在崇左境内,为本地独特&#39;国宝&#39;;后者全球仅存130多只,全部栖息在中国广西靖西与越
新型大学英语课堂教学模式随着教育理论的深化,教学改革的实施,以及多媒体和网络技术在英语教学中的普及应运而生。大学英语教学模式正从以会话和语言文本为主的传统教学模式向
3-6岁,是孩子发育的黄金时期,因为,这个年龄段是孩子一生中词汇量增长最快的时期,是语言飞速发展的时期;是孩子一生中智力发展最迅速的时期;是孩子个性形成的关键时期。由于视力的
目的:分析老年慢性腰背痛患者病程、Oswestry指数(ODI)两病情指标与腰骶角、腰椎重力线指数两影像学指标之间的相关性.为老年慢性腰背痛诊治提供参考。方法:2008年10月至2009年5月
随着我国经济的快速发展,人民生活水平的不断提高,信用卡消费作为一种新的生活方式越来越多的出现在人们的日常生活中。从近几年的数据来看,我国信用卡的发展是呈爆发性的飞速增