论文部分内容阅读
摘 要:近年来,博客与社交网络已经为客户关系管理、公共舆论追踪和文本过滤等领域的研究提供了宝贵的资源。从社交网站(如Twitter和Facebook)获得的数据对市场营销公司、舆论组织以及其他研究者具有重要价值。本研究的数据来源于社交网站Twitter中的文本數据,随机抽取了一段时期Twitter中的3516篇推文作为样本评估消费者对全球16个知名品牌(如Nokia,IBM,KLM)的情感态度。研究使用专家预定义的词典进行分析,词典包括6800个已知态度倾向的种子形容词。研究结果表明,消费者对其中几个知名品牌持积极态度,通过消费者对品牌的情感态度分析可以为公司制定营销策略提供可行性建议。文中运用的定性与定量相结合的分析方法,为品牌情感态度分析拓宽了深度。
一、研究背景意义
互联网信息时代,社交媒体的发展使人们在社交网络表达的意见在购买产品、股票市场波动和总统选举等公众舆论方面有很大影响力。最新的一项针对Twitter的研究发现,超过80%的用户会发布自己日常的信息或转发别人的信息,社交网络成为人们表达意见或看法的重要途径,因此分析社交网络中的海量文本数据具有重要意义。
二、研究方法
情感分析法(sentiment analysis SA)被一些学者用来分析社交网络中文本所表达的情感,这是一种自然语言处理程序,运用计算语言学和文本挖掘来识别文本情感,文本情感通常分为积极、中立与消极三种,这项技术在文本挖掘文献中也被称为情感极性分析(EPA)、意见挖掘、文献挖掘或评价提取。情感分析法(SA)是一种自动化的知识发现技术,其目的是在大量的评论、博客或推文中找到一种隐藏模式,通过从文本中分析得出的情感与已有的词典进行比较,确定情感强度,进而计算情绪得分,通过情感得分分布判断总体的情感倾向。
三、研究内容
以往学者对情感分析法(SA)的应用研究大多集中于产品评论、电影评论、政治倾向分析和股票市场预测,比如从消费者对产品的评论中提取意见,将评论中的积极情感与消极情感分类,追踪在线论坛讨论的情感趋势,发现网络热点等。但没有运用此方法专门针对消费者对全球知名品牌做情感分析的研究,文章的研究弥补了这一空白,对社交网站品牌相关文本数据的分析试图解决以下两个问题:
1.社交网络意见挖掘是否可以分析出消费者对全球品牌的情感倾向?
2.公司能否利用网络博客有效制定营销与广告方案?
鉴于社交网站Twitter是最大、最受欢迎、用户多且活跃度较高的社交网站,根据市场研究公司Semiocast.com(2012)的数据显示Twitter大约有5亿活跃用户,代表性较强,因此笔者使用了从Twitter获取的文本数据进行分析。文章数据来源于Twitter网站2012年7月18日至2012年8月17日的一组随机帖子,包括16个品牌相关的3516篇推文,为了保证数据的代表性,样本来自于不同的日期与一天中不同的时刻。情感分析法的关键一步是词语分类,常用的有两种情感倾向识别方法:一种是基于词典,另一种基于语料,但基于语料的方法很少应用于情感倾向分析,因此使用基于词典的方法。这两种方法都需要一个预先定义的词典或主观词汇语料库,情感倾向识别是通过比较推文与词典中专家定义的条目来确定。之前的研究通常是包括182个类别超过11000个手工编码的单词的手工编码词典,例如LIWC词典,SentiWordNet,Q-wordnet或主观性线索词典。随着研究的深入,现已有自动编码的词典,其中包括基于情感的词典。论文借鉴了成功运用于此类研究的Hu and Liu (2004) 语料库。语料库包括大约6800个已知倾向的种子形容词(2006个积极词汇和4783个消极词汇)。
将文本进行词语分类后,运用QDA Miner4.0软件对Twitter帖子的文本数据进行定性分析,分别显示了词频表和基于多维缩放(MDS)技术构建的3-D概念图。最后运用R软件进行定量分析,计算整体的情感得分并显示了品牌的情感得分分布。从品牌的得分分布中可以看出有些品牌的推文得分表现出积极情感,如Lufthansa和DHL,有些表现出消极情感,如T-Mobile,有些品牌则呈不对称分布,并且大部分推文落在得分为0的区域或+1/-1的区域,这表明情感倾向为中性,没有明确的积极或消极情感倾向。
基于大约20%的网络博文提及品牌名称的事实,在Twitter和其他社交媒体上管理品牌形象应该成为公司主动营销策略的一部分,公司可以通过使用博客圈传播客户所需的信息,扩大品牌的影响力。使用社交网络监控用户和博主对其品牌的讨论,及时与不满意客户进行沟通,通过用户的博文信息为公司提供反馈信息便于改进产品和服务。
通过社交网络文本数据分析消费者对品牌的情感倾向可能存在偏差,但大量的文本信息为正确反映消费者情感提供可能性。从互联网获得消费者数据,相对传统的小组访谈和面对面市场调查节约了时间和成本。但需要注意的是,情感分析法(SA)也存在一些缺陷,运用此方法对用户意见进行客观分类的同时并不能揭示形成这些意见背后的原因,在未来的研究中,应该使用情感话题识别技术(STR)确定每种情感背后的最具代表性的话题,进而分析产生消极或积极情感的原因。另一方面,研究中所用方法只能识别出积极和消极基本情绪,并不能准确识别出在讽刺、挑衅等情况下的语言表达的情感状态,在进一步的研究中还要在这方面做改进。最后,用户在网络上所表达的观点可能受厂商的操纵,并没有真正反映消费者的真实情绪,可以通过企业财务数据,如股价、利润等进行检验。
作者简介:
田少娟(1993-),女,山西长治人,硕士研究生,研究方向:经济统计.
一、研究背景意义
互联网信息时代,社交媒体的发展使人们在社交网络表达的意见在购买产品、股票市场波动和总统选举等公众舆论方面有很大影响力。最新的一项针对Twitter的研究发现,超过80%的用户会发布自己日常的信息或转发别人的信息,社交网络成为人们表达意见或看法的重要途径,因此分析社交网络中的海量文本数据具有重要意义。
二、研究方法
情感分析法(sentiment analysis SA)被一些学者用来分析社交网络中文本所表达的情感,这是一种自然语言处理程序,运用计算语言学和文本挖掘来识别文本情感,文本情感通常分为积极、中立与消极三种,这项技术在文本挖掘文献中也被称为情感极性分析(EPA)、意见挖掘、文献挖掘或评价提取。情感分析法(SA)是一种自动化的知识发现技术,其目的是在大量的评论、博客或推文中找到一种隐藏模式,通过从文本中分析得出的情感与已有的词典进行比较,确定情感强度,进而计算情绪得分,通过情感得分分布判断总体的情感倾向。
三、研究内容
以往学者对情感分析法(SA)的应用研究大多集中于产品评论、电影评论、政治倾向分析和股票市场预测,比如从消费者对产品的评论中提取意见,将评论中的积极情感与消极情感分类,追踪在线论坛讨论的情感趋势,发现网络热点等。但没有运用此方法专门针对消费者对全球知名品牌做情感分析的研究,文章的研究弥补了这一空白,对社交网站品牌相关文本数据的分析试图解决以下两个问题:
1.社交网络意见挖掘是否可以分析出消费者对全球品牌的情感倾向?
2.公司能否利用网络博客有效制定营销与广告方案?
鉴于社交网站Twitter是最大、最受欢迎、用户多且活跃度较高的社交网站,根据市场研究公司Semiocast.com(2012)的数据显示Twitter大约有5亿活跃用户,代表性较强,因此笔者使用了从Twitter获取的文本数据进行分析。文章数据来源于Twitter网站2012年7月18日至2012年8月17日的一组随机帖子,包括16个品牌相关的3516篇推文,为了保证数据的代表性,样本来自于不同的日期与一天中不同的时刻。情感分析法的关键一步是词语分类,常用的有两种情感倾向识别方法:一种是基于词典,另一种基于语料,但基于语料的方法很少应用于情感倾向分析,因此使用基于词典的方法。这两种方法都需要一个预先定义的词典或主观词汇语料库,情感倾向识别是通过比较推文与词典中专家定义的条目来确定。之前的研究通常是包括182个类别超过11000个手工编码的单词的手工编码词典,例如LIWC词典,SentiWordNet,Q-wordnet或主观性线索词典。随着研究的深入,现已有自动编码的词典,其中包括基于情感的词典。论文借鉴了成功运用于此类研究的Hu and Liu (2004) 语料库。语料库包括大约6800个已知倾向的种子形容词(2006个积极词汇和4783个消极词汇)。
将文本进行词语分类后,运用QDA Miner4.0软件对Twitter帖子的文本数据进行定性分析,分别显示了词频表和基于多维缩放(MDS)技术构建的3-D概念图。最后运用R软件进行定量分析,计算整体的情感得分并显示了品牌的情感得分分布。从品牌的得分分布中可以看出有些品牌的推文得分表现出积极情感,如Lufthansa和DHL,有些表现出消极情感,如T-Mobile,有些品牌则呈不对称分布,并且大部分推文落在得分为0的区域或+1/-1的区域,这表明情感倾向为中性,没有明确的积极或消极情感倾向。
基于大约20%的网络博文提及品牌名称的事实,在Twitter和其他社交媒体上管理品牌形象应该成为公司主动营销策略的一部分,公司可以通过使用博客圈传播客户所需的信息,扩大品牌的影响力。使用社交网络监控用户和博主对其品牌的讨论,及时与不满意客户进行沟通,通过用户的博文信息为公司提供反馈信息便于改进产品和服务。
通过社交网络文本数据分析消费者对品牌的情感倾向可能存在偏差,但大量的文本信息为正确反映消费者情感提供可能性。从互联网获得消费者数据,相对传统的小组访谈和面对面市场调查节约了时间和成本。但需要注意的是,情感分析法(SA)也存在一些缺陷,运用此方法对用户意见进行客观分类的同时并不能揭示形成这些意见背后的原因,在未来的研究中,应该使用情感话题识别技术(STR)确定每种情感背后的最具代表性的话题,进而分析产生消极或积极情感的原因。另一方面,研究中所用方法只能识别出积极和消极基本情绪,并不能准确识别出在讽刺、挑衅等情况下的语言表达的情感状态,在进一步的研究中还要在这方面做改进。最后,用户在网络上所表达的观点可能受厂商的操纵,并没有真正反映消费者的真实情绪,可以通过企业财务数据,如股价、利润等进行检验。
作者简介:
田少娟(1993-),女,山西长治人,硕士研究生,研究方向:经济统计.