基于机器学习的多分类Logistic回归

来源 :现代信息科技 | 被引量 : 0次 | 上传用户:zwb1102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要:票房与评分作为评价一部电影最重要的两个方面,传统研究考虑他们的影响因素时,只考虑多个影响因素对其中一个因素的影响(即“多对一”)。本文提出基于多分类Logistic回归模型,构造一种单一影响因素对多个因素(即“一对多”)是否产生影响的分析方法,并从理论角度对该方法给予了证明;并将该方法应用在2017年和2018年国产电影数据中,分析了明星影响力对电影票房评分两方面的影响,发现明星影响力对电影票房评分没有显著影响。
  关键词:多分类Logistic回归;影响因素筛选;明星影响力
  中图分类号:TP181      文献标识码:A 文章编号:2096-4706(2019)21-0022-04
  Abstract:Box office and scoring are the two most important aspects of evaluating a film. When traditional research considers their influencing factors,only the influence of multiple influencing factors on one of the factors (more to one) is considered. This paper proposes an analysis method based on multi-class Logistic regression model to construct whether a single influencing factor affects multiple factors (one to more),and proves the method from a theoretical perspective. In addition,we applies the data of domestic films of China in 2017 and 2018,and analyze the influence of star on the movie box office and score. We find that the star has no significant effect on the movie box office and score.
  Keywords:multi-class Logistic regression;selection of factors;star influence
  0  引  言
  近年来,中国电影市场蓬勃发展,呈现出百花齐放的景象。一部电影的成功往往主要由电影票房与评分两个方面决定。一般而言,票房决定了电影的经济效益,评分决定了电影的文化效益。所以研究电影票房与评分的影响因素,也成了现在学术界对电影研究的主要方面。
  但是这些研究往往只关注了票房或者评分其中一个方面,没有考虑影响因素对二者整体的影响。本文基于多分类Logistic回归模型,将电影离散化为“高分高票房”“高分低票房”“低分高票房”“低分低票房”四类,在机器学习视角下,分析预测了影星这一影响因素在同一电影类别中所发挥的作用存在的差异,进一步分析影星对于电影票房与评分整体的影响。
  1  文献综述
  对于电影票房的影响因素分析,早在20世纪80年代,Litman[1]就使用回归的方式建立了票房模型,他认为影响票房最主要的因素是档期和发行公司,同时电影提名和专业影评对其也有着较为显著的影响;1994年,Sochay[2]认为影响票房的主要因变量是市场集中度,并按照类似Litman的方法建立了回归模型,对美国票房进行了分析预测。以上两个模型是针对美国票房的分析模型,对国内的票房模型的研究起到了十分重要的参考作用。在国内,郑坚[3]等利用反馈神经网络来建立票房预测模型,通过影响因素为导演、档期等拟合出效果较好的票房预测模型;吴珏[4]等人使用电影喜欢人数、收藏人数等消费者数据对票房进行分析预测,发现用户关于特定电影的深度互动行为与票房结果显著相关;李建平等[5]使用灰色关联分析和BP算法对票房进行预测,选择了内地影院数量、银幕总数、居民消费水平等七个相关的指标,得到了效果较好的预测模型。
  这些研究表明,消费者以及电影本身对票房有着显著的影响,但是大部分研究忽略了演员对电影票房的影响,尤其是电影主演对票房的影响。在中国电影市场,存在着明显的“明星”效应,即许多制片方会将大部分资金用在请“明星”上,凭借“明星”吸引观众,提升票房。
  对于电影评分的影响因素分析,国内外的研究较少,周如彪等[6]使用多元回归模型,分析了上映时间、时长等指标对电影评分的影响;马松岳、许鑫[7],使用ROSTEA工具进行情感分析得到评论评价的综合情绪值,将其与评分进行相关分析。这些研究表明,电影票房与评分等多种因素有关,这些因素既有共性,也有差异,但都是多种因素对单一因素的影响,即“多对一”模型。
  所以本文的研究重点,一是利用多分类Logistic回归模型,研究解决“一对多”的问题,并证明这种方法的可行性;二是利用这种方法对电影数据进行建模,分析影星对电影票房与评分的影响。
  2  模型设定
  但是由于本文所研究的问题是变量对分类的影响,又因为对于未分类样本决定样本分类的指标完全是由数据的原始属性提供,所以当x*可由X線性表示时,即分类变量y可完全被x*解释,x*是影响分类的因素。
  3  实证分析
  本文爬取了时光网2017年的56部电影与2018年各55部国产电影的票房、评分、主演等数据,同时在“艺恩电影数据库”中爬取了1737名明星的微博热度、新闻热度、贴吧热度以及搜索热度数据。   3.1  数据处理
  为了获得有效的预测模型,对数据做以下处理。首先考虑到2017与2018两年的电影票房和评分有着差异较大的波动,所以对电影票房以及评分数据进行标准化处理。由于电影数据本身没有根据电影的票房和评分进行分组,所以根据聚类和判别分析的思想,设置四个群样本点π1,π2,π3,π4分别代表“高分高票房”“高分低票房”“低分高票房”和“低分低票房”四种电影类别,并定义它们在空间中的位置π1[max(pf),max(score)]、π2[min(pf),max(score)]、π3[max(pf),min(score)]、π4[min(pf),min(score)],其中pf代表电影票房,score代表评分。
  其次为了有效表达每部电影主演的影响因子,本文采用主成分分析的方法,并提取第一主成分,作为每位主演的影响因子,如下式:
  factor1=0.568*tieba+0.292*weibo+0.472*search+0.607*news
  其中tieba、weibo、search、news分别代表贴吧热度、微博热度、搜索热度以及新闻热度。
  对于一部电影来说,通常情况下主演并不是只有一人,为了简化问题,这里将所有主演的影响因子相加构成电影的影星影响因子。这也符合实际情况,对于一部电影来说,人们的关注度往往取决于这部电影的演员的整体实力。
  3.2  模型参数设定
  我们选取2018年的55部电影数据作为实验组供电脑学习,并随机选取其中的35部电影作为训练集,其余20部为测试集;将2017年的56部电影作为预测集,检验电影明星对电影类别的影响。并由上述聚类方法得到电影类型表,如表1所示。
  针对多分类问题,常用混淆矩阵和根据混淆矩阵得到的绝对精度,所谓绝对精度,即准确预测到实际类别个数占整个实际类别总数的比例。
  3.3  实验结果
  使用Matlab编写构建Logistic回归模型,使用梯度下降算法分别对2018年包含影星影响因子的数据集(train_stars)和不含影星影响因子的数据集(train)进行训练,得到结果,如图1至图4所示。其中图1和图2分别代表含影星影响因子的包含35部电影的训练集和包含20部电影的测试集数据集,图3和图4分别代表不含影星影响因子的包含35部电影的训练集和包含20部电影的测试集数据集。图中“十字”代表数据原始数据类别,“圆圈”代表预测数据类别,尖锋代表预测错误的电影。可以看出两个数据集的训练集精确度都达到了0.8,而测试集得精确度也达到了0.85和0.9,所以该模型的精确度较高,可以用来预测2017年电影的分类。
  通过预测2017年电影的分类,得到结果如图5和图6所示,其中图5为含影星影响因子的预测;图6为不含影星影响因子的预测。
  其中两种预测模型对同一电影预测值相同的电影只有14部,即重复率只有25%,所以我们可以认为电影明星对电影分类是一个无关的随机影响因子,即电影明星对电影票房以及评分没有影响。
  4  结  论
  本文采用多分类Logistic回归从分类的角度衡量了单一影响因子对多因素的影响,并对该方法给予了证明。之后选取了2017年和2018年的数据,分析了电影明星对电影票房以及评分的影响,由于有无影星影响因子对模型有着显著的影响,所以我们认为电影明星并不会对电影票房以及评分产生影响。
  本文选取了一个全新的角度,分析某一因素是否对其他因素产生影响,并为电影投资人,是否要邀请大牌明星提升电影的竞争力和口碑提供了一定的参考。
  参考文献:
  [1] Barry R. Litman,Linda S. Kohl. Predicting financial success of motion pictures:The '80s experience [J].Journal of Media Economics,1989,2(2):35-50.
  [2] Scott Sochay. Predicting the Performance of Motion Pictures [J].Journal of Media Economics,1994,7(4):1-20.
  [3] 李健平,王世民.基于灰色关联分析和BP算法的国内电影票房预测 [J].电子世界,2018(24):18-19.
  [4] 吴珏,潘徐.基于用户内容消费数据的电影票房预测模型探索 [J].全球传媒学刊,2018,5(3):96-107.
  [5] 郑坚,周尚波.基于神经网络的电影票房预测建模 [J].计算机应用,2014,34(3):742-748.
  [6] 周如彪,林晓霞,王昱华.基于多元回归分析豆瓣电影评分 [J].艺术科技,2019,32(1):67-68+83.
  [7] 马松岳,许鑫.基于评论情感分析的用户在线评价研究——以豆瓣网电影为例 [J].图书情报工作,2016,60(10):95-102.
  [8] 李锦繡.基于Logistic回归模型和支持向量机(SVM)模型的多分类研究 [D].武汉:华中师范大学,2014.
  作者简介:黄恋舒(1997.11-),女,汉族,广西贵港人,本科在读,研究方向:经济统计;夏启政(1998.11-),男,汉族,河南新乡人,本科在读,研究方向:经济统计。
其他文献
摘 要:为了改变传统课堂教学手段落后、授课内容抽象、重难点不突出等不足,以高职“计算机网络基础”课程为实基础,从课程设计原则、课程方案设计、课程实施等方面出发,设计了基于SPOC混合模式的教学改革方案,并在计算机网络技术专业的两个年级进行混合教学改革实验,结果表明实施SPOC混合模式教学改革的班级比传统班级的成绩更好、课堂气氛更活跃,该混合教学模式丰富了课堂教学手段,提高了学生的学习兴趣,取得了良
期刊
摘 要:STEAM是一种多学科融合的综合性教育学习理念,自2006年由美国提出以来,因对动手实践及创新思维培养的强调,已成为备受关注的现代化教学模式。但在职业教育中,尤其是中职课程中,STEAM仍较少获得关注。文章将以中职物联网APP开发课程为例,探究在中职课程中引入STEAM教育理念的应用策略,更好地培养学生成为“蓝金领”。  关键词:STEAM理念;中职教育;物联网课程  中图分类号:G434
期刊
摘 要:现代社会正处于计算机信息时代,浏览器可对网页的源代码文件进行规范化的解析,使其Web内容能正常显示,但是Web服务存在多种数据传输格式,不同的数据格式所需存储方法的实现代码存在差异,因此需要提高代码的弹性,以适应未来的各种数据格式。通过介绍Web服务与RESTful技术进行Provider消息处理,利用BufferImage方法针对《蒙娜丽莎》的24位位图进行解密算法得出新的内容,而利用新
期刊
摘 要:在“互联网+”背景下,近几年越来越多的校园类APP在数量上呈现出快速增长的趋势,以学生为用户群体的校园类APP得到了极大的发展。但以高校教职工为用户群体的校园类APP却极少得到发展。因此,以成都信息工程大学的“知校”APP为例,研究其用户需求和功能设计,通过分析其特殊性,为其他校园类APP提供相应的经验等借鉴,助力校园类APP的发展。  关键词:用户需求;功能设计;“知校”APP  中图分
期刊
摘 要:2014年李克强总理提出“大众创业、万众创新”,国内掀起一股创新热潮,创新也成为过去几年各地区政府报告中频繁出现的词汇。教育部在2016年工作要点中强调要“深入推进高校创新创业教育改革”,加强推进“建立精准推送就业服务机制”,“促进高校毕业生就业创业”。基于校企合作方式,一方面提升高等院校人才培养能力、科学研究能力和社会服务能力;另一方面也能提升大学生的学习能力、创新能力、實践能力、交流能
期刊
摘 要:软件工程学科的交叉性较强,综合了数学、管理学、计算机学、工程学等多个学科的基本原理。集中讲述了软件在开发、维护、运行过程中采用的方法与技术。提高该课程的教学质量对培养大学生计算机专业能力十分重要。根据“软件工程”课程特点及学生信息接收习惯,在优化课程案例设计时,可以从强化概念理解、构建正确目标、夯实理论知识、丰富评价方式等方面入手,使实践案例与理论知识的联系更加密切,调动学生的主观能动性 
期刊
摘 要:混合式学习能够结合线上学习与面对面学习的优势,一般将其分成三类:发生性混合、促进型混合、改变型混合。其中,以翻转课堂为代表的改变性混合能够真正把传统课堂模式的以“教师为中心”改变为“以学生为中心”,但这种方法仍然没有解决线上学习学生之间相互独立,学习程度不够深入的问题。针对这两个问题,本文试图构建一种混合式学习的新模式——联结式学习,将学生联结起来,做到在线学习相互联系,提高学习氛围,线上
期刊
摘 要:文章主要研究陕西历史文化遗产遗迹博物馆展品在虚拟展示方面的问题,目的在于加强游客在于参观时的体验及对历史文化的理解。通过以唐大明宫为例进行针对历史遗迹的增强现实项目展示的设计与实现总结出计算机技术在实际项目中的设计规则。通过项目的实现证明研究的设计规则与开发方法是可行的,为面对文化历史遗迹以及博物馆展示项目方面提供一定参考。  关键词:增强现实技术;历史文化遗产;数字虚拟展示;大明宫  中
期刊
摘 要:在国家教育考试标准化考点建设取得巨大成效的同时,也出现了考务管理脱节、信息资源利用不足、缺乏统一标准等问题。本文提出通过引入云计算技术,结合大数据与物联网技术,搭建考务数据中心,构建系统化、整体化、智能化、可扩展的国家教育考试综合管理平台。并立足于江苏省的标准化考点升级建设给出了云环境下国家教育考试综合管理平台架构的设计方案。  关键词:标准化考点;云平台;教育考试  中图分类号:TP31
期刊
摘 要:随着我国科学技术的进一步发展,相关科研人员更加注重对人工智能技术的研究,在此基础上,人脸识别技术以及RFID技术在一定程度上得到了充分的发展。我国各大学校为变革传统的图书馆管理模式,加大了智慧图书馆的建设力度,积极引进了人脸识别以及RFID技术,并且将其大力应用在图书馆中,期望能够以此来推动图书馆相关工作高效进行。本文将根据人脸识别结合RFID技术的概念、应用现状、优势等方面进行全方位详细
期刊