基于Pandas的数据预处理方法介绍

来源 :科学与财富 | 被引量 : 0次 | 上传用户:llz364088963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文先介绍数据预处理的定义和概念,然后对常用的数据预处理方法进行详细介绍,包括合并数据、清洗数据、标准化数据和转换数据,并举例说明其实现方法,本文对从事大数据和人工智能的研究人员在数据预处理方面具有一定的参考价值。
  关键词:Pandas;数据预处理;统计分析
  0     引言
  数据预处理是指对数据进行合并、清洗、标准化和变换并直接用于分析建模的过程的总称[1]。其中,数据合并可以把多张相互关联的表格合成一张表格;数据清洗可以去掉缺失、重复、异常或者不一致的数据;数据标准化可以去除特征间的量纲差异;数据变换则可以通过离散化、哑变量处理等技术满足后期分析与建模的数据要求。
  1     Pandas介绍
  Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。Pandas的两个主要功能是DataFrame和Series,DataFrame是Pandas中的一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型等),DataFrame即有行索引也有列索引,可以被看做是由Series组成的字典。Series是一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。Pandas是一个强大的数据处理工具,使用Pandas可以方便地进行各种原始数据的预处理。
  2     使用Pandas进行数据预处理方法介绍
  2.1  合并数据
  Pandas合并数据主要有三种方法,分别是是堆叠(横向或纵向)合并数据、主键合并数据和重叠合并数据。
  堆叠合并就是简单地把两个表合并在一起,根据x轴或者y轴的合并方向,可分为横向或者纵向合并,其中横向合并可以用concat函数完成,而纵向合并可以用append函数完成。
  主键合并就是通过一个或者多个键将两个数据集的行进行连接,类似与SQL中的join函数。针对两张包含不同字段的表,将其根据某几个字段一一对应拼接起来,结果集的列数为两个原数据的列数和减去连接键的数量。Pandas中的merge函数可以实现主键合并。
  重叠合并主要是用来处理数据分析中偶尔会出现两份数据的内容几乎一致的情况,但是某些特征在其中一张表上是完整的,而在另外一张表上的数据则是缺失的。Pandas中的combine_first函数可以实现重叠数据的合并。
  2.2  清洗数据
  数据重复会导致数据的方差变小,数据分布发生较大的变化[2];而数据的缺失会导致样本信息减少,不仅增加了数据分析的难度,而且会导致数据分析的结果产生偏差。异常值则会产生“伪回归”。数据清洗就是对数据进行检测,查询是否有重复值、缺失值和异常值,并且对这些数据进行适当的处理。
  清洗数据主要包括检测与处理重复值、检测与处理数据缺失值和检测与处理数据的异常值三个方面内容。处理重复数据是数据分析经常面对的问题,对重复数据进行处理前,需要分析重复数据产生的原因以及去除这部分数据后可能造成的不良影响。常见的数据重复分为两种:一种是记录重复,即一个或者多个特征的某几条记录的值完全相同;另一种是特征重复,即存在一个或者多个特征名称不同,但数据完全相同的情况。
  2.2.1      记录重复的处理
  下面介绍几种处理数据表中记录重复的方法。
  (1)利用list去重
  假如表中的某一个特征字段存放了该特征的类别信息,要找出该特征字段中唯一的不重复的类别信息,可以采用list去重的方法。关键代码如下所示:
  def delRep(list1):
  list2=[]
  for i in list2:
  if i not in list2:
  list2.append(i)
  return list2
  (2)利用set特性去重
  set集合的特点是不能存储相同的信息,利用这个固有的特性,可以达
  到自动去重的目的。关键代码如下:
  print‘(去重前的总数:’,len(list1))//去重前的总数:1040
  list2=set(list1)
  print‘(去重后的总数:’,len(list2))//去重后的总数:68
  2.2.2      特征去重
  结合相关的数学和统计学知识,要去除连续的特征重复,可以利用特征间的相似度将两个相似度为1的特征去除一个。在pandas中,相似度的计算方法为corr。例如使用pearson法求出表中的counts和amounts两列的相似度矩阵,部分代码如下所示:
  #求出销量和售价的相似度
  corrDet=detail[‘[count’,’amounts’]].corr(method=’pearson’)
  print‘(销量和售价的pearson法相似度矩阵为:’,corrDet)
  打印输出:
  销量和售价的pearson法相似度矩陣为:
  Counts amounts
  counts   1.0  0.8321   amounts0.8321   10
  2.2.3      检测与处理缺失值
  数据中的某个或某些特征的值是不完整的,这些值称为缺失值。pandas提供了识别缺失值的方法isnull以及识别非缺失值的方法notnull,这两种方法在使用是返回的都是布尔值。结合sum函数和isnull、notnull函数,可以检测数据中缺失值的分布以及数据中一共含有多少个缺失值。部分关键代码如下:
  print‘(detail每个特征缺失的数目为:\n’,detail.isnull().sum())
  print‘(detail每个特征非缺失值的数目为:\n’,detail.notnull().sum())
  2.2.4      检测与处理异常值
  异常值是指数据中个别值的数值明显偏离其余的数值,也称为离群点,检测异常值就是检验数据中是否有输入错误以及是否含有不合理的数据。异常值的存在对数据分析十分危险,如果计算分析过程中的数据有异常值,会对计算结果产生不良的影响,从而会导致分析结果产生偏差乃至错误。常用的异常值检测主要有3σ原则和箱线图分析两种方法。
  3σ原则又称为拉依达准则。该原则就是先假设一组检测数据只含有随机误差,对原始数据进行计算处理得到标准差,然后按一定的概率确定一个区间,认为误差超过这个区间就属于异常。该判别处理方法适用于对正态或近似正态分布的样本数据进行处理。
  箱体图分析法提供了识别异常值的一个标准,即异常值通常被定义为小于QL-1.5IQR或大于QU+1.5IQR的值。其中QL称为下四分位数,表示全部观察值中有四分之一的数据取值比它小;QU称为上四分位数,表示全部观察值中有四分之一的数据取值比它大;IQR称为四分位数的间距,是上四分位数QU与下四分位数QL之差,其间包含了全部观察值的一半。
  2.3  标准化数据
  不同的特征之间往往具有不同的量纲,由此所造成的数值间的差异可能很大,在涉及空间距离计算或梯度下降法等情况时,不对其进行处理会影响到数据分析结果的准确性,为了消除特征之间量纲和取值范围差异可能会造成的影响,需要对数据进行标准化处理。
  2.3.1      离差标准化数据
  离差标准化数据是对原始数据的一种线性变换,结果是将原始数据的数值映射到[0.1]区间,其转换公式如下所示:
  X*=(X-min)/(max-min),其中,max为样本数据的最大值,min为样本数据的最小值,max-min为极差。离差标准化保留了原始数据值之间的联系,是消除量纲和数据取值范围最简单的方法。
  2.3.2      标准差标准化数据
  标准差标准化是当前使用最广泛的数据标准化方法。经过该方法处理的数据均值为0,标准差为1,其转换公式如下所示:
  其中μ为所有样本数据的均值,σ为所有样本数据的标准差。
  2.4转换数据
  数据即使经过了清洗、合并和标准化以后,还不能直接拿来做分析建模,为了能够将数据分析工作继续进行,需要对数据做一些合理的转换,使之符合分析要求。
  常用的轉换数据处理方法如下:
  (1) 哑变量处理类别型数据
  (2) 使用等宽法、等频法和聚类分析方法离散化连续型数据
  3总结
  本文先介绍数据预处理技术的特点和作用,并详细说明数据预处理的四种技术:数据合并,数据清洗,数据标准化,数据转换的定义和应用,这四种技术并不存在严格的先后关系,在实际工作中往往交叉进行。本文对于从事大数据和人工智能的人员具有一定参考意义和帮助作用。
  参考文献:
  [1] 谈文蓉,王金壅等.城市地下管网运维大数据预处理技术研究[J],西南民族大学学报(自然科学版),2020(7).
  [2] 李康.探究大数据处理过程中的数据质量影响[J],网络安全技术与应用,2020(8).
  作者简介:
  翟高粤(1975.11-),男(汉),广西钦州,硕士,副教授,研究方向:软件理论,人工智能
其他文献
摘要:文章基于火电厂锅炉辅机设备检修的重要性,总结与分析辅机设备运行中的常见故障及其原因,针对不同故障提出了相应的故障处理和预防措施,以供参考。  关键词:火电厂;锅炉辅机设备;检修;故障;处理措施  1引言  锅炉是火电厂中的三大主机之一,其运行中还涉及数量和种类较多的辅机设备,这些辅机设备的运行状态直接决定锅炉以及发电机组的整体运行状态。但是在如此大的电能生产压力以及复杂、恶劣的运行环境中,锅
期刊
摘要:当前,全球能源发展进入加速低碳化转型期,注重能源发展质量和效率,优化能源结构,提升国家能源结构中油气消费比例,成为我国适应世界油气发展新形势的重要举措。与此同时,随着成品油销售行业市场准入门槛的逐步降低,加气、加氢、充电等新能源行业的迅速崛起,国内成品油销售业务面临着市场份额扩大难、市场竞争白热化的两难境地。为了在推动能源结构多元化上走在前、做表率,成为地方清洁能源市场的引领者,本文通过对主
期刊
摘要:"学分银行" 是一种学习成果认证、积累与转换制度,是指学习者的学习成果以学分的形式存入" 银行",当存满一定的数额,并满足某办证机构的特定条件,就可以将获得的学分兑换成该机构的相应证书的一种管理制度。学分银行就如一条连接在学校与学校、学校与政府、学校与行业、企业的纽带,打通了学历与非学历、正规与非正规教育之间的沟通壁壘,实现了各类教育资源的整合与利用,其对于提高教育的有效性,以及为更多学习者
期刊
摘要:本文将详细介绍城市燃气生产运行调度指挥的主要作用,针对其运行调度指挥现状,提出多项有效措施,如设立专业化管理系统、加大工程监管力度、设置协调沟通机制及完备应急预案等,从而使燃气的运行与生产更为高效。  关键词:城市燃气;生产运行;调度指挥  引言:随着我国逐步加快了城市建设步伐,为使燃气行业更加稳定地运行与生产,达到人们正常的用电需求,燃气企业的生产运行调度指挥极为重要,管理人员不但要提升重
期刊
摘要:近年来,国家方面与地方政府都对污水处理工作的开展状况引起了越来越高的重视,所以水质化验分析工作也在不断的加强。质量管理与控制在污水处理,水质化验中进行应用的主要目的就是为了保障化验所得出的结果具有较高的精准性。在进行污水处理水质化验的时候,质量管理与控制是其中的重点内容。只有将内部质量管理与控制工作有效的开展,才能够充分了解到水质状况,采取有效措施进行处理。本文对质量管理与控制在污水处理水质
期刊
摘要:本文首先从金属材料的分类以及内容与方法简要介绍了金属材料检测的基本理论,其次深入分析了金属材料检测的环境以及原材料影响因素,最后介绍了金属材料检测注意事项及检测质量提升方法,以期为相关研究提供借鉴与参考。  关键词:金属材料检测;影响因素;常见问题;检测质量提升方法  1 金属材料检测的基本理论  1.1 金属材料检测的分类  金属材料检测通常分为两种,分别是有色金属、黑色金属[1]。前者通
期刊
摘要:当前大树移植已经成为城市绿化、美化不可缺少的手段和措施,特别是一些重点工程,往往要在较短的时间内体现绿化、美化的效果,同时也是保护在城市改建扩建工程中的古树和各种树木的有效手段。笔者依据多年从业经验,对大树移植养护管理几点进行探讨,并得出结论,以供同行参考。  关键词:大树移植;养护管理;技术  1. 引言  大树移植需要投入较多人力、机械设备和资金,大树的再生能力较幼青年树明显减弱,难以成
期刊
摘要:微生物保存是依据菌种变异快的特点,通过一定方法降低微生物的代谢活性,从而延长其保存期限。本文对微生物菌种保存方法进行概述,并分别阐述药品微生物菌种的主要保存方法和工业微生物菌种主要保存方法。只要选择恰当的保存方法,才达到良好的保存效果,真正实现保存的目的。  关键词:微生物菌种;保存方法;技术要点  现阶段,微生物产业已具相当大的规模,其中在发达国家占有生产总值比重较高。在微生物产值的不断增
期刊
摘要:科学技术飞速发展背景下,社会对于煤矿等资源的需求不断增长,同时越来越多的先进技术开始被应用到煤矿开采中,促进了开采效率的提高,不过与此同时,煤矿机电设备数量的增加,也使得机电设备在运行中经常会出现各种各样的故障,影响设备的正常运行,需要技术人员和管理人员的重视和解决。本文对煤矿机电设备的常见故障以及维修技术进行了分析,希望能够保障煤矿的稳定安全运行。  关键词:煤矿;机电设备;常见故障;维修
期刊
摘要:风扇产品在生产过程中,冲压工艺是重要的加工工艺,对整个扇叶的成型和扇叶的加工质量产生了重要影响。为了提高风扇产品的生产质量,使风扇扇叶能够达到加工要求,在风扇扇叶的冲压工艺中,应当积极做好设备调整、参数调整和材料调整,使整个风扇产品在冲压工艺方面能够得到有效优化,为整个风扇产品的生产奠定良好的基础。因此,开展风扇产品冲压工艺优化升级的研究,对整个风扇产品的生产具有直接的影响。  关键词:风扇
期刊