基于机器学习的电影票房预测系统设计与实现

来源 :科学与财富 | 被引量 : 0次 | 上传用户:jeanlife
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:早在1989年Barry Litman建立了第一个电影预测模型,随着电影市场和互联网的迅速发展,运用大数据理念,电影票房预测系统应运而生。它是考察影响电影票房的诸多因素基础上,采用回归统计分析方法研发出的预测系统。电影定档后正式海报会在线上/线下宣传,观众会通过海报图像上提供的信息来决定是否买票观看电影。预测系统收集最近10年的电影数据,根据提交海报生成的特征,并分类到相似海报的已上映影片,根据相似海报的电影票房数据进行多元回归分析来预测该电影的票房收入。
  关键词:回归统计分析;票房预测;多元回归;电影预测模型
  1概述
  本课题研究内容主要基于机器学习技术设计并实现电影票房预测系统。主要贡献包括三部分:1,基于机器学习的电影票房预测系统的体系结构和实现;2,基于深度学习的电影特征抽取方法;3,基于回归分析的电影票房预测方法,预测未上映的电影中国票房收入。
  2电影票房预测系统结构
  电影票房预测系统如图1所示,该系统分为三个模块:1,电影海报与票房数据处理模块。2,基于深度学习的海报图像特征抽取模块。3,基于线性回归的电影票房预测模块。
  2.1电影海报与票房数据处理
  数据源来自CBO中国票房网、时光网、imdb等电影相关的在线服务网站。用Python语言设计并实现一个数据收集与处理程序,该程序从互联网电影信息网站爬取电影信息(电影名称、海报图像、上映时间、总票房、评分),并保存到关系型数据库(MySQL5.7)中。
  2.2基于深度学习的海报图像特征抽取方法
  用VGG16来训练神经网络,选择某一层次作为特征向量,即可描述数据集中的电影概貌。在系统设计中,选择使用基于Keras的深度学习框架提升训练神经网络的效率。利用训练结果得到的特征向量计算余弦相似性,得到相似海报,最后找到同类电影。
  2.3基于线性回归的电影票房预测方法
  深度神经网络自动提取的电影海报特征不一定是人类可直观理解的特征。根据海报提取的特征,对此分类。
  回归分析是机器学习一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于发现两个或多个变量之间的因果关系:1,表明自变量(年份/评分等)和因变量(票房收入)之间的显著关系;2,表明多个自变量对一个因变量的影响强度。
  1,根据电影A的海报提取的电影特征进行聚类,计算同类电影的票房均值。 ,其中,A是电影A的票房均值,p是第k部电影与电影a的相似度,v是第k部电影的票房)。
  2,获取到该类电影票房均值(Y),年份(X)的样本数据。
  3,利用回归分析找到一条拟合线,从而预测下一年的电影票房均指作为此电影的票房预测。
  线性回归是机器学习最重要的算法之一,通过拟合最佳直线来建立自变量和因变量的关系。回归线用Y=m*X+b来表示,这条直线能以最小的误差(Loss)来拟合数据。
  找最佳拟合直线时,如果因变量y与自变量x的关系为非线性的,但是又找不到适当的函数曲线来拟合,则可以采用一元多项式回归。
  二元则采用梯度下降法求解方程组。在多维特征中,要保证特征具有相近的尺度,这将帮助梯度下降算法更快地收敛。解决的方法是尝试将所有特征的尺度都尽量缩放到-1到1之间,最简单的方法就是(X-mu) /sigma,其中mu是平均值,sigma是标准差。损失函数和单变量一样,依然计算损失平方和均值。和单变量线性回归问题中一样,是要找出使得代价函数最小的一系列参数。
  3实验
  类1海报电影票房预测:
  1,把年月份换算成小数表示Y=year+mouth/13如2017年4月用数字2017.31表示。载入matplotlib库后,用pandas读取数据存储的.csv,写一个函数把数据转换为X值(年月份)、Y值(票房总收入/万元)。
  2,线性回归分析,其中predict_year为要预测的年份,函数返回对应的票房收入。构造回归图像,获取预测值,构造返回字典:定义截距值、回归系数、预测值。
  3,構造回归对象,绘出已知数据散点图和预测直线,获取预测值2018,输出结果为112052.45751675万元。
  预测类1海报的电影2018年上映票房收入为12052.5万元。实际电影复仇者联盟3:无限战争2018年累计票房为236490.5万元。从直线上看该类电影票房呈逐年上升趋势。
  4,多项式线性回归是是一种特殊的线性回归,直观地解释是根据样本点去拟合一条多项式曲线。
  degree是多项式中自变量x的阶数。虽然其图形经过了大部分的点,但会存在拟合过度(over-fitting)的情况,并没有从输入和输出中推导出一般的规律,而是记忆训练集的结果,并没有实际的参考价值。
  5,定义年月份为x1、评分为x2,向量x=(x1,x2),y为票房收入,进行二元回归分析。例如:x=[2017.54,7.2],y=[567886.1]。
  6,对数据特征的尺度都尽量缩放到-1和1之间,输出x,均值,标准差:
  计算损失平方和均值,转化为向量化计算
  对theta求导,套入迭代公式,并存储历史误差
  预处理设置迭代次数和学习率
  7,预测年份为2018,分数为8.1,x=[2018,8.1],使用模型预测结果,计算y。输出结果为13067.68万元。从预测结果上看二元回归分析比一元线性回归更接近实际票房数值。
  4总结与展望
  电影票房预测系统在实际中具有实际意义,它能分析预测不同种类电影的票房价值,成为电影产业投融资重要参考工具,对电影产品定价及衍生产品开发都具有较强的指导作用。在实验中遇到许多问题,如:时光网电影海报有多张:预告海报、角色海报、国外海报等,每类海报差异巨大,会影响下一步的海报特征抽取,本课题以网站标签为中国正式海报为准进行抓取。VGG16抽取特征后可能会出现聚类不明显的情况,还需对数据进行降噪、过滤处理,增加神经网络训练次数。电影市场潜力巨大,随着模型的不断完善,也会应用到其他领域。
  参考文献:
  [1]袁璐,沈浩.基于深度学习的电影海报推荐系统[J].现代电影技术,No.05/2018
  [2]郑坚,周尚波.基于神经网络的电影票房预测建模[J].计算机应用,2014,34(3):742-748.
  [3]胡晓红、王红.基于多元线性回归的电影票房预测研究[J].信息技术与信息化,1672-9528.2018.h2.048
其他文献
摘要:在集中供热系统刚开始运行的时候,总是会出现一些问题,比如说局部的散热器不热或者室内的温度达不到一开始设计的要求等,出现这些现象的原因一般有两个方面,一个是设计方面的原因,一个是施工方面的原因。下面这篇文章我们就一起来探讨一下集中供热系统在施工的时候应该注意什么问题。  关键词:集中供热系统;施工;分析问题  引言:  因为在集中供热系统中经常出现局部散热器不发热或者室内温度达不到设计之初的标
期刊
摘要:在输电线路运行过程中,其输电功能实现的主要载体是导线。在电能输送过程中,电力能源损耗不可避免,且随着电压等级的变化,其在相应的电能输送环节也会产生不同的能源损耗。而相较于普通钢芯铝绞线而言,节能导线具有直流电阻小、导线导电能量强的特点,可有效降低输电线路能源损耗。本文根据节能导线在输电线路中的应用特点,对节能导线在输电线路中的应用进行了简单的分析。  关键词:节能导线;输电线路;应用  前言
期刊
摘要:针对目前高校预科生的汉语教学现状,本文以培养学生的汉语学习兴趣和自学能力作为主线,在MHK的评价体系下对高校预科生的汉语教学提出“引、思、导、练”四步教学方法。这就要求高校教师不仅要采用合适的教学方法引发预科生学习汉语的兴趣,引导学生思考质疑,指导学习方法,还要对所学的内容进行巩固练习。以提高教师的教学水平和学生的学习效率,从而提高汉语教学的质量。  关键词:MHK,预科生,汉语教学,学习兴
期刊
摘要:本文首先介绍了专利信息的概念、特点、作用和获取途径 ,然后详细介绍了专利信息分析的几种方法 ,最后通过几个实际的例子来加深对专利信息分析方法的理解 更多还原  关键词:专利信息;分析方法;应用举例  1.专利信息分析方法统计分析  统计分析也称定量分析,主要是通过专利文献的外表特征进行统计分析,也就是通过专利文献上所固有的标引项目来识别有关文献,然后对有关指标进行统计,最后用不同方法对有关数
期刊
摘要:现代纺织设备运用自动化等高新技术,实现了纺织生产过程中各种参数的在线检测、显示、自动控制和自动调节,实现了设备运行的自动监测、显示、超限报警等功能,保证和提高了产品质量和生产效率,降低了产品成本,增强了产品的竞争力。  关键词:自动化;纺织工业;检测;自动控制;自动调节  前言  自动化是指在没有人的直接参与下,机器设备或生产管理过程通过自动检测、信息处理、分析判断自动地实现预期的操作或某种
期刊
摘要:数控机床主要应用了综合自动化技术,在机械制造领域起着至关重要的作用,一旦在生产过程中出现故障,必定会对生产效率以及作业安全产生巨大影响。因此为保证数控机床维持最佳运行状态,务必要做好故障诊断工作,结合故障表现形式确定发生原因,采取有针对性的措施处理应对,避免故障进一步扩大。  关键词:数控机床;机械故障;诊断  引言  数控机床是集机、电、液、气为一体的典型机电系统,结构复杂且自动化程度高,
期刊
摘要:本文首先对“3S”原理进行了介绍,然后从洪灾前期预防、洪灾发生救灾、洪灾发生后的检测三个时期进行的不同工作对“3S”技术如何在防汛抗旱中发挥了重要作用进行了阐述。  关键词:“3S技术”、水文学、防汛抗旱  随着城镇化进程不断加快以及气候变暖带来的极端气候变化,部分地区接连遭受大型洪涝灾害。暴雨洪涝在引起媒体与公众普遍关注的同时,也给管理部门的防御和对策研究带来了新的难题。”3S”技术在空间
期刊
摘要:设计了可同时实现自动与手动喷雾方式的液压系统控制回路,使得液压支架可通过执行某一特定动作时开启自动喷雾或通过人为干预开启手动喷雾,且两种控制方式相互独立,互不影响,并无需执行“关喷雾”的动作。  关键词:液压支架;喷雾;研制;应用  1.概述  煤炭生产过程中会产生大量的粉尘,采煤机和掘进机截割过程及液压支架在放煤和降架、移架过程中的粉尘,是形成工作面粉尘的主要根源,大量的粉尘,是危害工人健
期刊
摘要:随着现代科学技术的高效发展,给计算机领域的发展带来了巨大空间。各个领域对计算机网络技术的需求丰富多样,将高端的人工智能技术运用到计算机网络发展中,可以充分节省人们的工作时间与精力,带动我国科技的进步。所以,在未来的发展中,智能化、人性化将会进一步得到研究与推广。阐述了人工智能的内涵,分析了人工智能技术在计算机网络中的优势,针对计算机网络发展中人工智能技术的应用做出分析与研究。  关键词:人工
期刊
摘要:鉆孔灌注桩技术在现代公路桥梁工程施工中已经得到了广发应用,并且从其应用情况来看,取得了不错的成绩。但是,还存在一些不如意的地方,因此应当加强对其的分析,从而使其作用得到更好的发挥。  关键词:公路桥梁;钻孔灌注桩;工程质量  引文:  操作简单、成本低廉、适应范围广是钻孔灌注桩施工技术的优势,但同时,作为一种隐蔽工程,这项技术在实际施工中对其操作很难进行全面监控,从而导致对其施工质量的严重威
期刊