论文部分内容阅读
【摘要】 通过自建电影《流浪地球》的网络影评语料库,设计了基于词典的情感分析算法,随机抽取豆瓣600条网络影评展开情感分析,并借助态度系统对情感词进行标注。结果发现,观众对技术和主题满意度高,对情节、表演及语言满意度低。
【关键词】 情感分析;网络影评;态度系统
【中图分类号】J905 【文献标识码】A 【文章编号】2096-8264(2021)02-0104-02
基金项目:江苏省研究生科研创新计划“基于评价理论与Python情感分析的中美德电影跨文化协同研究”(项目编号:KYCX20_1046)资助项目的阶段性成果。
随着互联网的飞速发展,网络成为人们日常交际的热点领域,影评也随之网络化。各阶层民众通过对电影进行描述和评价,来表达自身的美学认知和价值期许。美国传播学者Herbert Schiller(1982)指出:“电影、广播、电视、书籍、新闻等随处可见的文化产品或服务,不仅提供消息和娱乐,同时也是传播社会价值或政治观点的工具,最终它们会对社会和精神结构产生深刻的影响。”然而,目前国产电影跨文化研究尚存在宏观研究有余、微观研究不足等诸多问题。因此本文通过对影片《流浪地球》的豆瓣网络影评进行特征提取和情感分析,并采用态度系统对情感词进行标注,考察观众对影片从整体到局部的满意度,以此为自然语言处理、话语分析等相关研究提供帮助和启示。
一、国产电影研究现状
国外学者对中国电影的研究建立在跨文化的视角上,他们运用西方的电影理论、电影批评理论考察中国电影反映的政治、经济、文化等问题,并对中国电影在外传播与接受状况进行研究,相关成果有Chris Berry、George Semsel等分析了中国电影的艺术性;Paul Clark、Nick Browne、Poshek Fu等对中国电影的政治元素进行解读;Stephanie Donald、Tonglin Lu等对中国电影的现代性及在西方的接受程度研究等。
21世纪初,随着国家广播电影电视总局广播影视“走出去工程”正式启动,国产电影的跨文化研究随之兴起,相关事例有戴元光、邵培仁、项欣、李小丽等对国产电影的跨文化传播策略进行了探讨;姚朝文、葛玉清、储常胜等对特定类型的国产电影传播进行了研究等。然而以影评为研究对象的学者较少,相关研究有尚宏通过23篇中美日专业影评对比中美日三国的文化差异;李亦中、赵菲运用NLTK自然语言处理对《纽约时报》影评进行分析,对中国电影在美国的口碑与传播进行了历时性研究。综上,目前影评相关研究存在研究数量少、语料稀薄、理论运用不足等问题。因此,本研究将自然语言处理技术及评价理论延伸至电影文化领域,通过对网络影评的情感态度进行挖掘,考察观众对影片的接受情况。
二、研究方法
(一)数据收集及预处理
1.语料收集。采用随机抽取的方式于豆瓣网站抽取影片《流浪地球》的网络影评,保留用户名和评分,剔除无关项后得到影评600条共199176字,构建小型网络影评语料库。
2.分句及去停用词。首先,对语料进行分句处理,得到4947条分句;其次,采用百度停用词表对语料进行去停用词处理,并利用Python进行过滤,得到中文影评共计144397字词;最后,利用结巴分词对语料进行分词。
3.特征提取。分别提取词频数量前200的词进行分类得到特征项。在特征提取方面主要根据名词和名词词组出现的频率进行提取[1]。最后利用特征项对语料进行归类。
(二)情感分析框架
情感分析,又称主客观分析,以挖掘文本信息中用户表达的情感极性为目标。常见的情感分析技术有基于情感词典的无监督分类方法和基于机器学习的有监督分类方法。基于情感词典的方法主要根据情感词库来匹配计算评论的情感倾向,而基于机器学习的方法通过人工设计代表评论文本的特征,然后抽取评论特征并表示成文本向量,对文本进行分类(樊振等 2018)。本研究采用基于词典的情感分析方法对文本进行情感分析。
(三)态度分析框架
评价理论是关于评价的,即语篇中所协商的各种态度、所涉及的情感的强度以及表明价值和与读者形成联盟的各种方式[4]。评价理论包括三大系统:态度、介入、级差,其中态度系统是中心[3]。态度系统又可进一步划分为情感、判断和鉴赏三个子系统。情感系统关注积极或消极感情的表达;判断系统根据伦理、道德和社会规约评论人的行为;鉴赏系统涉及对符号和自然现象的评价,依据的是特定领域内评价的方式和标准[4]。态度有正面和负面、显性和隱性之分,态度的好坏显隐与否,取决于表达态度的语言意义[2]。
本研究基于情感词典导出情感词表,运用态度系统对情感词进行标注,然后利用Antconc 3.4对特征词左右紧邻的语境搭配词进行凸显检索,左右窗口大小设为3,按词频排序。通过情感词结合语境分析,对特征项情感进行挖掘。
三、结果与讨论
根据情感分析的结果显示,影评共有2966条正倾向语句和1981负倾向语句,可见正负倾向语句数差距明显,说明观众对影片总体满意度高。同时,影评正倾向语句的占比随评分增加而升高,负倾向语句的占比呈中间高两边低的趋势。其中,正倾向语句在四分和五分段高于负倾向语句占比,在其他分段都低于负倾向语句占比。说明三分以上分段观众满意度高,三分以下分段观众满意度低。在影评词频最高的150个情感词中,情感类情感词共43个,判断类53个,鉴赏类54个说明观众以客观性描述和评判为主。
通过对高频词进行筛选及分类,得到占比前五位的特征为情节(21%)、主题(18%)、人物(11%)、技术(10%)、表演(5%)。可以看出,观众对“情节”和“主题”层面关注度高,而对“表演”层面关注度较低。说明相较于影片的演绎,观众更注重视影片内容。情感分析结果显示,正面语句共1614条,负面语句共1734条,总体上负面语句数略高于正面语句数,且正面情感主要集中在“主题”和“技术”层面,负面情感主要集中在“情节”和“人物”层面。情感词表中正面情感词543个,负面情感词509个。在态度类别上,鉴赏类情感词数量最多,情感类情感词数量最少。 情节方面,负倾向语句数远高于正倾向语句数,情感词以负面判断和正负面鉴赏为主。评论大致集中在“故事”“逻辑”和“科学设定”三个方面。观众认为影片故事“单薄”“仓促”,但总体“连贯”“有创意”,逻辑上“混乱”“不合理”且“不容推敲”,科学设定更是“不严谨”“漏洞百出”。
主题方面,正倾向语句数远高于负倾向语句数,情感词以正面鉴赏和正负面判断为主。评论主要体现在“人类”“希望”“英雄”和“家园”四个方面。首先,观众从影片中感受到了人类的“渺小”,绝望之处的“希望”。其次,中方观众认为地球是人类的“家园”,与人类“不可分割”。最后,中方观众“感动”于万千平民英雄,“震撼”于人类最后时刻的“团结”,对中国人能拯救世界感到“自豪”。
人物方面,负倾向语句数远高于正倾向语句数,情感词以负面判断和负面鉴赏为主。评论主要体现在“人物塑造”“人物刻画”和“人物情感”三个方面。中方观众认为人物塑造“单薄”“混乱”,人物关系缺乏说明;人物刻画“随意”“片面”;人物情感“简陋”“泄气”。具体人物方面,观众提及最多的为“刘启”“韩朵朵”和“刘培强”。对于刘启,中方观众认为其“叛逆”“任性”、称姥爷为“老东西”让人不适;对于韩朵朵,观众认为其“没用”“强行煽情”,关键时刻的演讲更显“啰嗦”“尴尬”,让人“着急”;对于刘培强,观众认为其为救儿子弃全人类的未来于不顾、作为军人不服从指令,是“自私”“不負责任”的表现。
技术方面,正倾向语句数远高于负倾向语句数,情感词以正面情感和正面鉴赏为主。评论大多聚焦“特效”“画面”和“场景”三个层面。观众认为特效“好”“棒”,场景“震撼”“恢弘”,画面“考究”“精致”,技术上甚至是“不输”好莱坞的。
表演方面,负倾向语句数略高于正倾向语句数,情感词在态度系统下的分布较为均匀。评论大致集中在“演技”和“演员”两个方面。观众认为片中老戏骨的演技还是“在线”的,但年轻演员演技“尴尬”,观众容易“出戏”。观众显示出对吴京、吴孟达的高关注度,对于吴京,中方观众观点不一,有部分观众认为作为投资人,他的眼光不错,但演技上有些“过力”,塑造的形象还停留在电影《战狼》层面。对于吴孟达,中方观众认为“超出预期”,一反以往的喜剧形象,唯一的不足是戏份太少,可见观众对其的喜爱。
四、结论
本研究分析发现,影评评分的正负倾向和观众态度的正负倾向呈现不协调性,由此可见,观众评分具有随机性、任意性。从特征分布上看,观众对影片情节、主题关注度最高,说明观众更加注重影片内容。在中国工业技术日益提升的今天,影片创作者不仅要加强技术上的投入,也应当注重对影片内容和人物的打磨。
参考文献:
[1]唐晓波,兰玉婷.基于特征本体的微博产品评论情感分析[J].图书情报工作,2016,60(16):121-127.
[2]王振华,张庆彬.基于语料库的中外大学校训意义研究——“评价系统”视角[J].外语教学,2013,34(06): 7-12.
[3]司显柱,徐婷婷.从评价理论看报纸社论的意识形态[J].当代外语研究,2011(11):17-20.
[4]Martin, J. R., P. P. R. White. The Language of Evaluation: Appraisal in English. New York: Palgrave Macmillan, 2005.
作者简介:
邓燕燕,女,汉族,江苏南京人,硕士研究生,南京工业大学外国语言文学学院,研究方向:德语语言学、跨文化交际。
【关键词】 情感分析;网络影评;态度系统
【中图分类号】J905 【文献标识码】A 【文章编号】2096-8264(2021)02-0104-02
基金项目:江苏省研究生科研创新计划“基于评价理论与Python情感分析的中美德电影跨文化协同研究”(项目编号:KYCX20_1046)资助项目的阶段性成果。
随着互联网的飞速发展,网络成为人们日常交际的热点领域,影评也随之网络化。各阶层民众通过对电影进行描述和评价,来表达自身的美学认知和价值期许。美国传播学者Herbert Schiller(1982)指出:“电影、广播、电视、书籍、新闻等随处可见的文化产品或服务,不仅提供消息和娱乐,同时也是传播社会价值或政治观点的工具,最终它们会对社会和精神结构产生深刻的影响。”然而,目前国产电影跨文化研究尚存在宏观研究有余、微观研究不足等诸多问题。因此本文通过对影片《流浪地球》的豆瓣网络影评进行特征提取和情感分析,并采用态度系统对情感词进行标注,考察观众对影片从整体到局部的满意度,以此为自然语言处理、话语分析等相关研究提供帮助和启示。
一、国产电影研究现状
国外学者对中国电影的研究建立在跨文化的视角上,他们运用西方的电影理论、电影批评理论考察中国电影反映的政治、经济、文化等问题,并对中国电影在外传播与接受状况进行研究,相关成果有Chris Berry、George Semsel等分析了中国电影的艺术性;Paul Clark、Nick Browne、Poshek Fu等对中国电影的政治元素进行解读;Stephanie Donald、Tonglin Lu等对中国电影的现代性及在西方的接受程度研究等。
21世纪初,随着国家广播电影电视总局广播影视“走出去工程”正式启动,国产电影的跨文化研究随之兴起,相关事例有戴元光、邵培仁、项欣、李小丽等对国产电影的跨文化传播策略进行了探讨;姚朝文、葛玉清、储常胜等对特定类型的国产电影传播进行了研究等。然而以影评为研究对象的学者较少,相关研究有尚宏通过23篇中美日专业影评对比中美日三国的文化差异;李亦中、赵菲运用NLTK自然语言处理对《纽约时报》影评进行分析,对中国电影在美国的口碑与传播进行了历时性研究。综上,目前影评相关研究存在研究数量少、语料稀薄、理论运用不足等问题。因此,本研究将自然语言处理技术及评价理论延伸至电影文化领域,通过对网络影评的情感态度进行挖掘,考察观众对影片的接受情况。
二、研究方法
(一)数据收集及预处理
1.语料收集。采用随机抽取的方式于豆瓣网站抽取影片《流浪地球》的网络影评,保留用户名和评分,剔除无关项后得到影评600条共199176字,构建小型网络影评语料库。
2.分句及去停用词。首先,对语料进行分句处理,得到4947条分句;其次,采用百度停用词表对语料进行去停用词处理,并利用Python进行过滤,得到中文影评共计144397字词;最后,利用结巴分词对语料进行分词。
3.特征提取。分别提取词频数量前200的词进行分类得到特征项。在特征提取方面主要根据名词和名词词组出现的频率进行提取[1]。最后利用特征项对语料进行归类。
(二)情感分析框架
情感分析,又称主客观分析,以挖掘文本信息中用户表达的情感极性为目标。常见的情感分析技术有基于情感词典的无监督分类方法和基于机器学习的有监督分类方法。基于情感词典的方法主要根据情感词库来匹配计算评论的情感倾向,而基于机器学习的方法通过人工设计代表评论文本的特征,然后抽取评论特征并表示成文本向量,对文本进行分类(樊振等 2018)。本研究采用基于词典的情感分析方法对文本进行情感分析。
(三)态度分析框架
评价理论是关于评价的,即语篇中所协商的各种态度、所涉及的情感的强度以及表明价值和与读者形成联盟的各种方式[4]。评价理论包括三大系统:态度、介入、级差,其中态度系统是中心[3]。态度系统又可进一步划分为情感、判断和鉴赏三个子系统。情感系统关注积极或消极感情的表达;判断系统根据伦理、道德和社会规约评论人的行为;鉴赏系统涉及对符号和自然现象的评价,依据的是特定领域内评价的方式和标准[4]。态度有正面和负面、显性和隱性之分,态度的好坏显隐与否,取决于表达态度的语言意义[2]。
本研究基于情感词典导出情感词表,运用态度系统对情感词进行标注,然后利用Antconc 3.4对特征词左右紧邻的语境搭配词进行凸显检索,左右窗口大小设为3,按词频排序。通过情感词结合语境分析,对特征项情感进行挖掘。
三、结果与讨论
根据情感分析的结果显示,影评共有2966条正倾向语句和1981负倾向语句,可见正负倾向语句数差距明显,说明观众对影片总体满意度高。同时,影评正倾向语句的占比随评分增加而升高,负倾向语句的占比呈中间高两边低的趋势。其中,正倾向语句在四分和五分段高于负倾向语句占比,在其他分段都低于负倾向语句占比。说明三分以上分段观众满意度高,三分以下分段观众满意度低。在影评词频最高的150个情感词中,情感类情感词共43个,判断类53个,鉴赏类54个说明观众以客观性描述和评判为主。
通过对高频词进行筛选及分类,得到占比前五位的特征为情节(21%)、主题(18%)、人物(11%)、技术(10%)、表演(5%)。可以看出,观众对“情节”和“主题”层面关注度高,而对“表演”层面关注度较低。说明相较于影片的演绎,观众更注重视影片内容。情感分析结果显示,正面语句共1614条,负面语句共1734条,总体上负面语句数略高于正面语句数,且正面情感主要集中在“主题”和“技术”层面,负面情感主要集中在“情节”和“人物”层面。情感词表中正面情感词543个,负面情感词509个。在态度类别上,鉴赏类情感词数量最多,情感类情感词数量最少。 情节方面,负倾向语句数远高于正倾向语句数,情感词以负面判断和正负面鉴赏为主。评论大致集中在“故事”“逻辑”和“科学设定”三个方面。观众认为影片故事“单薄”“仓促”,但总体“连贯”“有创意”,逻辑上“混乱”“不合理”且“不容推敲”,科学设定更是“不严谨”“漏洞百出”。
主题方面,正倾向语句数远高于负倾向语句数,情感词以正面鉴赏和正负面判断为主。评论主要体现在“人类”“希望”“英雄”和“家园”四个方面。首先,观众从影片中感受到了人类的“渺小”,绝望之处的“希望”。其次,中方观众认为地球是人类的“家园”,与人类“不可分割”。最后,中方观众“感动”于万千平民英雄,“震撼”于人类最后时刻的“团结”,对中国人能拯救世界感到“自豪”。
人物方面,负倾向语句数远高于正倾向语句数,情感词以负面判断和负面鉴赏为主。评论主要体现在“人物塑造”“人物刻画”和“人物情感”三个方面。中方观众认为人物塑造“单薄”“混乱”,人物关系缺乏说明;人物刻画“随意”“片面”;人物情感“简陋”“泄气”。具体人物方面,观众提及最多的为“刘启”“韩朵朵”和“刘培强”。对于刘启,中方观众认为其“叛逆”“任性”、称姥爷为“老东西”让人不适;对于韩朵朵,观众认为其“没用”“强行煽情”,关键时刻的演讲更显“啰嗦”“尴尬”,让人“着急”;对于刘培强,观众认为其为救儿子弃全人类的未来于不顾、作为军人不服从指令,是“自私”“不負责任”的表现。
技术方面,正倾向语句数远高于负倾向语句数,情感词以正面情感和正面鉴赏为主。评论大多聚焦“特效”“画面”和“场景”三个层面。观众认为特效“好”“棒”,场景“震撼”“恢弘”,画面“考究”“精致”,技术上甚至是“不输”好莱坞的。
表演方面,负倾向语句数略高于正倾向语句数,情感词在态度系统下的分布较为均匀。评论大致集中在“演技”和“演员”两个方面。观众认为片中老戏骨的演技还是“在线”的,但年轻演员演技“尴尬”,观众容易“出戏”。观众显示出对吴京、吴孟达的高关注度,对于吴京,中方观众观点不一,有部分观众认为作为投资人,他的眼光不错,但演技上有些“过力”,塑造的形象还停留在电影《战狼》层面。对于吴孟达,中方观众认为“超出预期”,一反以往的喜剧形象,唯一的不足是戏份太少,可见观众对其的喜爱。
四、结论
本研究分析发现,影评评分的正负倾向和观众态度的正负倾向呈现不协调性,由此可见,观众评分具有随机性、任意性。从特征分布上看,观众对影片情节、主题关注度最高,说明观众更加注重影片内容。在中国工业技术日益提升的今天,影片创作者不仅要加强技术上的投入,也应当注重对影片内容和人物的打磨。
参考文献:
[1]唐晓波,兰玉婷.基于特征本体的微博产品评论情感分析[J].图书情报工作,2016,60(16):121-127.
[2]王振华,张庆彬.基于语料库的中外大学校训意义研究——“评价系统”视角[J].外语教学,2013,34(06): 7-12.
[3]司显柱,徐婷婷.从评价理论看报纸社论的意识形态[J].当代外语研究,2011(11):17-20.
[4]Martin, J. R., P. P. R. White. The Language of Evaluation: Appraisal in English. New York: Palgrave Macmillan, 2005.
作者简介:
邓燕燕,女,汉族,江苏南京人,硕士研究生,南京工业大学外国语言文学学院,研究方向:德语语言学、跨文化交际。