基于电影数据的网络爬虫及数据预处理

来源 :世界家苑·学术 | 被引量 : 0次 | 上传用户:wanyuequn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:伴随着互联网技术的快速发展和应用范围拓展,“三网融合”(因特网、电信网、广播电视网)为传统广播电视媒介带来了机遇和挑战,与此同时,传统电视媒体在大数据时代也会面临更为严峻的考验。因此,我们需要将大数据技术有效地运用于电视媒体营销领域,那么数据的得到与处理就显得尤为关键。
  关键词:python pyspider;数据预处理;数据清洗
  1网络爬虫
  首先我们先对万维网做一个简单的认识:万维网是一个由许多互相链接的超文本页面(以下简称网页)组成的系统,在这个系统中,每个有用的事物,称为一样“资源”;并且由一个全局“统一资源标识符”(URI)标识;这些资源通过超文本传输协议(Hypertext Transfer Protocol)传送给用户,而后者通过点击链接来获得资源。
  网页有一下特点:
  (1)网页使用网址(URL)定位,并链接彼此;
  (2)网页使用 HTTP 协议传输;
  (3)网页使用 HTML 描述外观和语义。
  (4)网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。
  本文,我们旨在根据附件1~3中的用户收视信息,为用户推荐合理的收视节目,因此,我们需要通过网络爬虫获取所有的电视剧、电影、综艺、动漫的相关信息数据,并存入数据库中。网络爬虫的步骤如下:
  (1)找到包含电视剧、电影、综艺节目、动漫信息的网址(URL)列表;
  (2)通过 HTTP 协议把页面下载下来;
  (3)从页面的 HTML 中解析出需要的信息;
  (4)寻找更多的所需信息的URL,回到第2步继续。
  (5)将爬取后的所有数据导入数据库中。
  下面,我们以电影信息为例,爬取出相关的数据。
  下面我们具体描述网络爬虫的步骤。
  1.1选取一个开始网址
  既然我们要爬所有的电影,首先我们需要抓一个电影列表,该列表满足以下条件:
  1、包含足够多的电影的 URL
  2、通过翻页,可以遍历到所有的电影
  3、一个按照更新时间排序的列表,可以更快抓到最新更新的电影
  1.2创建一个项目
  1、在 pyspider 的 dashboard 的右下角,點击 “Create” 按钮;
  2、替换on_start函数的 self.crawl 的 URL,即设置初始爬虫网页为'http://dianying.2345.com/list/';
  3、采用@every修饰器,通知 scheduler(框架的模块),设置爬行的周期为每天执行一次,以此抓取最新的电影;
  4、点击run执行后,切换到follows面板,点击绿色的播放按钮。
  1.3爬取Tag 列表页
  在 Tag 列表页中,我们需要提取出所有的电影列表页的URL。sample handler 已经提取了非常多大的 URL,一种可行的提取左右列表页 URL 的方法就是用正则从中过滤出来:
  1、调用正则表达式模块;
  2、@config(age=10 * 24 * 60 * 60):设置任务的有效期限,在这个期限内目标爬取的网页被认为不会进行修改;
  3、index_page(self,response)参数为 Response 对象,response.doc 为 pyquery 对象,用来抓取返回的html文档中对应标签的数据。
  1.4爬取电影详情页
  CSS选择器是CSS用来定位需要设置样式的元素所使用的表达式。前端程序员都使用CSS选择器为页面上的不同元素设置样式,因此我们可以通过它定位需要的元素。
  detail_page(self,response)返回一个 dict 对象作为结果,结果会自动保存到默认的 resultdb 中,也可以通过重载方法将结果数据存储到指定的数据库。
  使用 css selector helper 分别添加电影的标题,评分、演员、导演、时长、语言、地区、细节等:
  1.5实现自动翻页
  同第(三)步中,爬取tag列表页一样,寻找到翻页的标签,此时不将其作为self.detail_page,而将其作为self.index_page,便于重复第(三)(四)步的操作。
  1.6 数据入库
  将爬虫后得到的数据(见附件)存入数据库中,在数据库中进行数据预处理。
  1.7 描述性统计分析
  我们对爬虫后的数据进行描述性统计分析,我们可以看出综艺节目所占的比例较大,接近于所有数据的一半,纪录片和动漫所占的比例很小其中纪录片的比例仅为0.12%。
  2 数据预处理
  我们将爬虫后的数据与原始数据导入数据库MySQL中,在数据库中对数据进行数据预处理,具体步骤如下:
  2.1 数据清洗
  数据清洗是发现和纠正数据文件中可识别错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。不符合要求的数据主要包括:残缺数据、错误数据、重复数据。我们主要是对数据噪声进行处理。“噪声”是被测量的变量的随机误差和方差,我们需要去掉噪声使得数据“光滑”。我们采用“分箱”来去掉噪声。分箱方法通过考虑数据的“近邻”(即周围的值)来光滑有序数据值。这些有序的值被分布到一些“桶”或“箱”中。
  2.2 数据归约
  由于收视记录的数据集的属性非常多,鉴于相互间集成得到的各属性之间的相关系数,利用维归约去掉无关属性,减少数据挖掘的处理量。我们采用奇异值矩阵分解和主成分分析进行降维,删除不相关的属性。
  假设待归约的数据由用n个属性或维描述的元组或数据向量组成。主成分分析是搜索k个最能代表数据的n维正交向量,其中 。这样,原始数据投影到一个小得多的空间上,导致维归约。
  2.3 去除重复项
  根据附件中的数据,我们需要计算出用户的个数。然而在代表用户的“机顶盒”这一列数据中,每个用户有很多项,因此,我们需要去除重复项,来计算用户个数。本文,我们采用 Python 软件中 Pandas 环境中的 drop_duplicates()函数,即:对 DataFrame 格式的数据,去除特定列下面的重复项,并保留第一项,返回 DataFrame 格式的数据,得出用户的个数。
  2.4 补充缺失值
  对文本数据中的缺失值,我们用“无”代替。对于数值数据中的缺失值,补充缺失值的方法为使用中心度量(如均值或中位数)填充缺失值。对于对称分布的数据,我们采用均值填充缺失值;对于倾斜分布的数据,我们采用中位数补充缺失值。
  2.5规范化处理
  所用的度量单尾可能会影响数据分析的结果,为了帮助避免对度量单位选择的依赖性,数据应该规范化和标准化。规范化数据试图赋予所有的属性相同的权重。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属性相比权重过大。常用的规范化方法有:最小-最大值规范化、z分数规范化和按小数定标规范化。令A是数值属性,具有n个观测值 。
  2.5.1 z分数规范化(零均值规范化)
  (作者单位:江苏师范大学)
其他文献
摘 要:教师的主要技能是“会教”。但职高幼教专业音乐课的课程设置主要侧重于安排乐理、声乐、琴键,这些音乐知识和基本技能课程。本文认为:职高幼教音乐教师在音乐课中除了要授予学生音乐知识和音乐基本技能外,还应重视对学生进行如何备课、上课、教学反思,这些实际教学能力的培养。  关键词:备课;上课;教学反思;职高幼教  教师的主要任务是教书育人,课堂教学是教书育人的主要途径,课堂教学能力是教学质量高低的关
期刊
摘 要:将数字信号落实到电子工程领域,将有效推动电子工程行业的可持续发展。本文首先对数字信号在电子信息工程中的应用现状进行了简要的分析,随后提出了相应的提升方案,希望观点能够促进电子信息工程稳定高效地发展。  关键词:数字信号处理;电子信息工程;通讯系统结构  引言:数字信号处理(Digital Signal Processing)缩写为DSP,已经渗透到日常生活的各个领域,在社会生产中具有重要的
期刊
摘 要:随着社会经济的发展和电子信息技术水平的提高,单片机电子台历设计在电子信息工程中的应用逐渐引起人们关注,促进了技术与生活的进一步融合。本文通过对单片机电子台历设计应用现状的分析,从单片机电子台历设计的应用原理、电子台历设计在电子信息工程软件与硬件设计中的应用以及在电子信息工程系统调试中的应用三个方面,对电子台历设计在电子信息工程实际应用展开论述。  关键词:单片机;电子台历设计;电子信息工程
期刊
摘 要:本文在对贝叶斯公式更进一步的了解研究后,使用实验的方式进一步的了解到该方法的缺点并进行分析。并在贝叶斯公式的基础上进行改进,使其更加准确的应用在垃圾邮件过滤方法中。依据最小风险的传统方法进行的改进,用实验的方法进一步得到准确的结论。改进的方法更加适用于现代邮件的需求,更加个性化。  关键词:贝叶斯定理;多项式事件模型;多变量贝努利事件模型;最小风险;垃圾邮件过滤  1 引言  在这个高速发
期刊
摘 要:多媒体教学作为一种新型的教育形式,它以现代化的信息技术取代了千百年来一支粉笔、一块黑板的传统教学手段,成为教育发展的趋势。一.多媒体对教学的主要成效;二.多媒体教学尚存在的问题;三.通过几年的教学实践经验我有几点建议.  关键词:提高了学生学习的积极性、激发了学生的思维活动、引导学生主动参与学习。加大对教师的教育与培训、让学生多多参与实践、建立完善相关管理机制。  科技发达的今天,已不再是
期刊
摘 要:当前时代被称为信息时代,电子信息的广泛应用是其主要标志之一,电子信息应用便捷、信息容量大,优势明显,但也存在安全和利用上的不足。基于此,本文分别就电子信息的安全存储策略和有效利用措施展开分析,论述外部设备、网络环境的信息安全存储,以及信息备份、管理水平提升等措施对电子信息利用的价值,以期通过研究为后续工作提供参考。  关键词:电子信息;外部设备;安全存储  引言:电子信息是信息技术的衍生物
期刊
摘 要:随着时代的快速发展,计算机网络安全问题时有发生,网络犯罪、信息泄露等问题频发,如何借助防火墙技术提高计算机网络安全性,进一步解决实际的计算机网络安全问题迫在眉睫。本文将从防火墙技术对计算机网络安全的重要性出发,并进一步分析如何运用防火墙技术解决现实中的计算机网络安全问题,从当前多发的计算机网络问题着手,进一步提升防火墙技术水平,提高计算机网络安全性。  关键词:计算机网络安全;防火墙技术;
期刊
摘 要:随着煤炭资源的日益枯竭,如何高效地利用煤炭资源成为社会关注的焦点。在高效利用煤炭资源之前,最基本的工作就是对煤质进行成分化验分析,只有在掌握了煤质的成分之后,才能够进一步研究如何利用。鉴于此,本文对煤质化验以及误差控制工作进行了探讨。  关键词:煤质化验;误差;控制工作  1 前言  要了解煤炭化验的误差产生和寻求出解决的方法,首先要了解煤炭化验的基本流程。常规的煤炭化验做法是首先进行煤炭
期刊
摘 要:信息时代的到来,让各个行业的工作方式都发生了变化。会计电算化就是会计与计算机信息技术产生的结合,会计电算化的应用让传统的会计工作发生了较大的变化。本文表述了会计电算化的意义,在会计电算化上,从会计职能、记账模式、账务处理、审计监督这四个方面分析会计电算化对会计工作的影响。  1引言  网络信息技术的快速更换,推动了企业经济管理模式的改革,会计工作方法也慢慢实现了信息化进展,会计电算化在会计
期刊
摘 要:随着科学技术的不断发展,人工智能技术取得了许多阶段性成果,人工智能也越来越被大众所重视,并且其在社会各方面的逐步应用能够让大众享受到人工智能的优势,有助于人们对人工智能有更加深入的了解。目前,人工智能在计算机网络技术中有着广泛的应用,随着互联網大数据时代的悄然临近,人工智能在计算机网络中必将会有更加广泛的应用。本文将从人工智能相关概念入手,介绍其在计算机网络技术中的应用,最后对人工智能的应
期刊