论文部分内容阅读
摘要:早在1989年Barry Litman建立了第一个电影预测模型,随着电影市场和互联网的迅速发展,运用大数据理念,电影票房预测系统应运而生。它是考察影响电影票房的诸多因素基础上,采用回归统计分析方法研发出的预测系统。电影定档后正式海报会在线上/线下宣传,观众会通过海报图像上提供的信息来决定是否买票观看电影。预测系统收集最近10年的电影数据,根据提交海报生成的特征,并分类到相似海报的已上映影片,根据相似海报的电影票房数据进行多元回归分析来预测该电影的票房收入。
关键词:回归统计分析;票房预测;多元回归;电影预测模型
1概述
本课题研究内容主要基于机器学习技术设计并实现电影票房预测系统。主要贡献包括三部分:1,基于机器学习的电影票房预测系统的体系结构和实现;2,基于深度学习的电影特征抽取方法;3,基于回归分析的电影票房预测方法,预测未上映的电影中国票房收入。
2电影票房预测系统结构
电影票房预测系统如图1所示,该系统分为三个模块:1,电影海报与票房数据处理模块。2,基于深度学习的海报图像特征抽取模块。3,基于线性回归的电影票房预测模块。
2.1电影海报与票房数据处理
数据源来自CBO中国票房网、时光网、imdb等电影相关的在线服务网站。用Python语言设计并实现一个数据收集与处理程序,该程序从互联网电影信息网站爬取电影信息(电影名称、海报图像、上映时间、总票房、评分),并保存到关系型数据库(MySQL5.7)中。
2.2基于深度学习的海报图像特征抽取方法
用VGG16来训练神经网络,选择某一层次作为特征向量,即可描述数据集中的电影概貌。在系统设计中,选择使用基于Keras的深度学习框架提升训练神经网络的效率。利用训练结果得到的特征向量计算余弦相似性,得到相似海报,最后找到同类电影。
2.3基于线性回归的电影票房预测方法
深度神经网络自动提取的电影海报特征不一定是人类可直观理解的特征。根据海报提取的特征,对此分类。
回归分析是机器学习一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于发现两个或多个变量之间的因果关系:1,表明自变量(年份/评分等)和因变量(票房收入)之间的显著关系;2,表明多个自变量对一个因变量的影响强度。
1,根据电影A的海报提取的电影特征进行聚类,计算同类电影的票房均值。 ,其中,A是电影A的票房均值,p是第k部电影与电影a的相似度,v是第k部电影的票房)。
2,获取到该类电影票房均值(Y),年份(X)的样本数据。
3,利用回归分析找到一条拟合线,从而预测下一年的电影票房均指作为此电影的票房预测。
线性回归是机器学习最重要的算法之一,通过拟合最佳直线来建立自变量和因变量的关系。回归线用Y=m*X+b来表示,这条直线能以最小的误差(Loss)来拟合数据。
找最佳拟合直线时,如果因变量y与自变量x的关系为非线性的,但是又找不到适当的函数曲线来拟合,则可以采用一元多项式回归。
二元则采用梯度下降法求解方程组。在多维特征中,要保证特征具有相近的尺度,这将帮助梯度下降算法更快地收敛。解决的方法是尝试将所有特征的尺度都尽量缩放到-1到1之间,最简单的方法就是(X-mu) /sigma,其中mu是平均值,sigma是标准差。损失函数和单变量一样,依然计算损失平方和均值。和单变量线性回归问题中一样,是要找出使得代价函数最小的一系列参数。
3实验
类1海报电影票房预测:
1,把年月份换算成小数表示Y=year+mouth/13如2017年4月用数字2017.31表示。载入matplotlib库后,用pandas读取数据存储的.csv,写一个函数把数据转换为X值(年月份)、Y值(票房总收入/万元)。
2,线性回归分析,其中predict_year为要预测的年份,函数返回对应的票房收入。构造回归图像,获取预测值,构造返回字典:定义截距值、回归系数、预测值。
3,構造回归对象,绘出已知数据散点图和预测直线,获取预测值2018,输出结果为112052.45751675万元。
预测类1海报的电影2018年上映票房收入为12052.5万元。实际电影复仇者联盟3:无限战争2018年累计票房为236490.5万元。从直线上看该类电影票房呈逐年上升趋势。
4,多项式线性回归是是一种特殊的线性回归,直观地解释是根据样本点去拟合一条多项式曲线。
degree是多项式中自变量x的阶数。虽然其图形经过了大部分的点,但会存在拟合过度(over-fitting)的情况,并没有从输入和输出中推导出一般的规律,而是记忆训练集的结果,并没有实际的参考价值。
5,定义年月份为x1、评分为x2,向量x=(x1,x2),y为票房收入,进行二元回归分析。例如:x=[2017.54,7.2],y=[567886.1]。
6,对数据特征的尺度都尽量缩放到-1和1之间,输出x,均值,标准差:
计算损失平方和均值,转化为向量化计算
对theta求导,套入迭代公式,并存储历史误差
预处理设置迭代次数和学习率
7,预测年份为2018,分数为8.1,x=[2018,8.1],使用模型预测结果,计算y。输出结果为13067.68万元。从预测结果上看二元回归分析比一元线性回归更接近实际票房数值。
4总结与展望
电影票房预测系统在实际中具有实际意义,它能分析预测不同种类电影的票房价值,成为电影产业投融资重要参考工具,对电影产品定价及衍生产品开发都具有较强的指导作用。在实验中遇到许多问题,如:时光网电影海报有多张:预告海报、角色海报、国外海报等,每类海报差异巨大,会影响下一步的海报特征抽取,本课题以网站标签为中国正式海报为准进行抓取。VGG16抽取特征后可能会出现聚类不明显的情况,还需对数据进行降噪、过滤处理,增加神经网络训练次数。电影市场潜力巨大,随着模型的不断完善,也会应用到其他领域。
参考文献:
[1]袁璐,沈浩.基于深度学习的电影海报推荐系统[J].现代电影技术,No.05/2018
[2]郑坚,周尚波.基于神经网络的电影票房预测建模[J].计算机应用,2014,34(3):742-748.
[3]胡晓红、王红.基于多元线性回归的电影票房预测研究[J].信息技术与信息化,1672-9528.2018.h2.048
关键词:回归统计分析;票房预测;多元回归;电影预测模型
1概述
本课题研究内容主要基于机器学习技术设计并实现电影票房预测系统。主要贡献包括三部分:1,基于机器学习的电影票房预测系统的体系结构和实现;2,基于深度学习的电影特征抽取方法;3,基于回归分析的电影票房预测方法,预测未上映的电影中国票房收入。
2电影票房预测系统结构
电影票房预测系统如图1所示,该系统分为三个模块:1,电影海报与票房数据处理模块。2,基于深度学习的海报图像特征抽取模块。3,基于线性回归的电影票房预测模块。
2.1电影海报与票房数据处理
数据源来自CBO中国票房网、时光网、imdb等电影相关的在线服务网站。用Python语言设计并实现一个数据收集与处理程序,该程序从互联网电影信息网站爬取电影信息(电影名称、海报图像、上映时间、总票房、评分),并保存到关系型数据库(MySQL5.7)中。
2.2基于深度学习的海报图像特征抽取方法
用VGG16来训练神经网络,选择某一层次作为特征向量,即可描述数据集中的电影概貌。在系统设计中,选择使用基于Keras的深度学习框架提升训练神经网络的效率。利用训练结果得到的特征向量计算余弦相似性,得到相似海报,最后找到同类电影。
2.3基于线性回归的电影票房预测方法
深度神经网络自动提取的电影海报特征不一定是人类可直观理解的特征。根据海报提取的特征,对此分类。
回归分析是机器学习一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于发现两个或多个变量之间的因果关系:1,表明自变量(年份/评分等)和因变量(票房收入)之间的显著关系;2,表明多个自变量对一个因变量的影响强度。
1,根据电影A的海报提取的电影特征进行聚类,计算同类电影的票房均值。 ,其中,A是电影A的票房均值,p是第k部电影与电影a的相似度,v是第k部电影的票房)。
2,获取到该类电影票房均值(Y),年份(X)的样本数据。
3,利用回归分析找到一条拟合线,从而预测下一年的电影票房均指作为此电影的票房预测。
线性回归是机器学习最重要的算法之一,通过拟合最佳直线来建立自变量和因变量的关系。回归线用Y=m*X+b来表示,这条直线能以最小的误差(Loss)来拟合数据。
找最佳拟合直线时,如果因变量y与自变量x的关系为非线性的,但是又找不到适当的函数曲线来拟合,则可以采用一元多项式回归。
二元则采用梯度下降法求解方程组。在多维特征中,要保证特征具有相近的尺度,这将帮助梯度下降算法更快地收敛。解决的方法是尝试将所有特征的尺度都尽量缩放到-1到1之间,最简单的方法就是(X-mu) /sigma,其中mu是平均值,sigma是标准差。损失函数和单变量一样,依然计算损失平方和均值。和单变量线性回归问题中一样,是要找出使得代价函数最小的一系列参数。
3实验
类1海报电影票房预测:
1,把年月份换算成小数表示Y=year+mouth/13如2017年4月用数字2017.31表示。载入matplotlib库后,用pandas读取数据存储的.csv,写一个函数把数据转换为X值(年月份)、Y值(票房总收入/万元)。
2,线性回归分析,其中predict_year为要预测的年份,函数返回对应的票房收入。构造回归图像,获取预测值,构造返回字典:定义截距值、回归系数、预测值。
3,構造回归对象,绘出已知数据散点图和预测直线,获取预测值2018,输出结果为112052.45751675万元。
预测类1海报的电影2018年上映票房收入为12052.5万元。实际电影复仇者联盟3:无限战争2018年累计票房为236490.5万元。从直线上看该类电影票房呈逐年上升趋势。
4,多项式线性回归是是一种特殊的线性回归,直观地解释是根据样本点去拟合一条多项式曲线。
degree是多项式中自变量x的阶数。虽然其图形经过了大部分的点,但会存在拟合过度(over-fitting)的情况,并没有从输入和输出中推导出一般的规律,而是记忆训练集的结果,并没有实际的参考价值。
5,定义年月份为x1、评分为x2,向量x=(x1,x2),y为票房收入,进行二元回归分析。例如:x=[2017.54,7.2],y=[567886.1]。
6,对数据特征的尺度都尽量缩放到-1和1之间,输出x,均值,标准差:
计算损失平方和均值,转化为向量化计算
对theta求导,套入迭代公式,并存储历史误差
预处理设置迭代次数和学习率
7,预测年份为2018,分数为8.1,x=[2018,8.1],使用模型预测结果,计算y。输出结果为13067.68万元。从预测结果上看二元回归分析比一元线性回归更接近实际票房数值。
4总结与展望
电影票房预测系统在实际中具有实际意义,它能分析预测不同种类电影的票房价值,成为电影产业投融资重要参考工具,对电影产品定价及衍生产品开发都具有较强的指导作用。在实验中遇到许多问题,如:时光网电影海报有多张:预告海报、角色海报、国外海报等,每类海报差异巨大,会影响下一步的海报特征抽取,本课题以网站标签为中国正式海报为准进行抓取。VGG16抽取特征后可能会出现聚类不明显的情况,还需对数据进行降噪、过滤处理,增加神经网络训练次数。电影市场潜力巨大,随着模型的不断完善,也会应用到其他领域。
参考文献:
[1]袁璐,沈浩.基于深度学习的电影海报推荐系统[J].现代电影技术,No.05/2018
[2]郑坚,周尚波.基于神经网络的电影票房预测建模[J].计算机应用,2014,34(3):742-748.
[3]胡晓红、王红.基于多元线性回归的电影票房预测研究[J].信息技术与信息化,1672-9528.2018.h2.048