论文部分内容阅读
摘要:随着我国网络的迅猛发展,大数据时代已经来临。在此时代背景下,信息流传速度不断加快,所涉及的领域越来越宽泛,有许多并不完整的数据通过不同的渠道汇总在一起。在这些不完整的数据当中,可能含有大量的高价值数据。如果能够在这些不完整数据中筛选出有利用价值的核心数据,那么这些不完整数据的作用就能够体现出来。本文将深入探究不完整数据的有效性,研究从不完整数据中筛选出核心数据的方法,旨在帮助各行各业能够在不完整数据中提取出核心数据。
关键词:不完整数据;核心数据;筛选与提取
大数据时代的背景下,数据筛选是许多企业的必修课。在企业的日常运营中,获取数据不完整等事项时有发生。在没有相应的备用文件的时候,数据丢失就会造成企业数据库的不完整。如果企业出现核心数据的残缺,为了满足企业的日常工作需求,从不完整数据中筛选出核心数据是企业运行的唯一途径。由于数据丢失时,不完整数据中往往含有一定的规律性,这也给不完整数据的筛选、提取提供了一定的可能性。如何基于不完整数据筛选出核心数据,就需要建立一个有效的数据库,运用相应的算法进行提取。
1 不完整数据筛选出核心数据的问题
1.1核心数据难以发现
不完整数据的信息量往往过于庞大,仅凭人工提取的方式显然不切实际,从中筛选出核心数据往往是采用关键词检索的方式。但是,关键词检索出的数据很大概率会遗漏掉一些潜在的有用数据,数据提取的有效率会大打折扣。从不完整数据筛选的现状来看,筛选核心数据的效果较差,往往得不到有效的结果。筛选出的核心数据往往并不全面,有些筛选结果还会出现与核心数据不匹配的信息。其次,不完整数据中往往还有大量的干扰项,这些具有干扰性的数据会影响到核心数据的提取。具体表现为干扰信息会打乱不完整数据中原有的规律,影响人们发现庞大数据中的关联规则。如何有效避开数据库中的干扰项,找出数据规律,提取出核心数据成为了数据筛选的首要难题。
1.2数据筛选的软件与算法选择困难
由于大数据时代背景下,不完整数据具有多元化的特征,这就导致了不完整数据的筛选时,软件与算法的选择较为困难。以往的不完整数据的筛选经验很有可能并不适用于现如今正面临的问题,以前行之有效的数据筛选软件与算法可能并不适用于现有的不完整数据的筛选,这样也就无法从中提取出自身所需求的核心数据。现有的很多软件可以用于单一条件的数据筛选,筛选内容范围较窄。当软件进行多条件的筛选之时,只适用于整个数据库的筛选,对于同一行或是同一列的筛选功能又不支持。其次,很多软件的筛选过程不能受到干扰,如果在数据筛选的过程中临时添加数据,引起数据源发生改变时,软件并不能实时更新,新增数据往往不能进入到筛选范围当中。而且,已有不完整数据中有的数据已经确知其不具有效用,筛选软件也不能将其进行有效剪切。对于延伸的数据对比项目,更是无法寻找出多项数据库的相同处与不同处,无法利用大数据库判断重复数据和有效数据。
2 不完整数据筛选出核心数据的有效办法
2.1使用适用于不完整数据筛选的算法
不完整数据的筛选过程中,主要问题就是寻找数据的有效规律,通过寻找数据中的关联性降低数据筛选的困难程度。经过几年内的数据筛选的深入研究,Apriori算法从以往的只能计算完整数据,已经延伸发展至可以应用于不完整数据的筛选。但是,这种Apriori算法应用于不完整数据的筛选之中时,需要提前确定不完整数据库的值域范围,对于其中不存在的数据项,要确保其数据不会超过数据库的值域范围。在这样的前提下,不论是完整数据,亦或是不完整数据的筛选,Apriori算法都能够有效计算数据的关联规则,对其支持度和可信度进行有效估算。从而有效的筛选出有用数据的范围。但是,基于其局限性,近年来的很多领域都研发出了适用于当前条件的算法。例如,近年來的人工智能领域。很多研究学者就基于原有的Apriori算法,开发出一种全新的贝叶斯法,可以从丢失数据的子集中迅速确定丢失数据的取值范围、概率分布。由此可见,根据数据丢失的具体情况和数据适用范围,选择有效的算法尤为重要。
2.2使用具有通用性的筛选软件
目前,数据的筛选软件多种多样,我们应当选择一项具有通用性的筛选软件。这样一来,在面对多项数据筛选时可以节约时间。目前,国内最通用的数据筛选软件就是EXCEL表格,EXCEL筛选适用于大多数的民用数据、企业数据的筛选。EXCEL可以直接复制粘贴不完整的数据源,并且在筛选过程中也可以完成这一项目,即时数据庞大,EXCEL也可以轻松完成数据覆盖,避免了人工输入的麻烦。并且,EXCEL可以按照数据规律进行有效排序,将同一类型的数据按自身需求进行独特排序,方便寻找其中的核心数据。同时,它还支持某一范围内的数据的多条件筛选,我们可以根据对核心数据的要求,设置多样条件,缩小核心数据的范围,更快捷的找寻不完整数据库中的核心数据,进行有效提取。其次,即使在数据源不断发生变化的时候,EXCEL也能实时更新,将新添加的数据进行统一筛选,这样可以保障在遗漏数据的时候,后续补偿添加的数据也具有有效性,减少数据筛选周期。
3 结语
不完整数据的筛选是人们日常生活中经常面临的问题,尤其是在企业运营过程当中,由于各方面原因导致的数据丢失情况在所难免,从不完整数据中有效的提取出相应的核心数据是一门企业生存的必修课。利用合理有效的算法缩小核心数据范围,在运用功能强大的软件进行核心数据的提取可以大大提升不完整数据的有效价值。
参考文献:
[1]李超,李悦丽,安道祥,王广学.数据筛选的低频UWB SAR图像快速可视化[J].中国图象图形学报,2015,20(01):151-158.
[2]张维理.海量空间数据提取、整合与制图表达方法概要[J].中国农业科学,2014,47(16):3231-3249.
[3]柯郑林.样本观测值数据筛选标准的分析[J].科学技术与工程,2008(20):5672-5674+5681.
作者简介:吴冬燕(1979.11-),女,汉族,浙江省省宁波市人,硕士研究生学历,浙江工商职业技术学院讲师,邮编:315012,研究方向:数据库技术,数据处理与分析。
关键词:不完整数据;核心数据;筛选与提取
大数据时代的背景下,数据筛选是许多企业的必修课。在企业的日常运营中,获取数据不完整等事项时有发生。在没有相应的备用文件的时候,数据丢失就会造成企业数据库的不完整。如果企业出现核心数据的残缺,为了满足企业的日常工作需求,从不完整数据中筛选出核心数据是企业运行的唯一途径。由于数据丢失时,不完整数据中往往含有一定的规律性,这也给不完整数据的筛选、提取提供了一定的可能性。如何基于不完整数据筛选出核心数据,就需要建立一个有效的数据库,运用相应的算法进行提取。
1 不完整数据筛选出核心数据的问题
1.1核心数据难以发现
不完整数据的信息量往往过于庞大,仅凭人工提取的方式显然不切实际,从中筛选出核心数据往往是采用关键词检索的方式。但是,关键词检索出的数据很大概率会遗漏掉一些潜在的有用数据,数据提取的有效率会大打折扣。从不完整数据筛选的现状来看,筛选核心数据的效果较差,往往得不到有效的结果。筛选出的核心数据往往并不全面,有些筛选结果还会出现与核心数据不匹配的信息。其次,不完整数据中往往还有大量的干扰项,这些具有干扰性的数据会影响到核心数据的提取。具体表现为干扰信息会打乱不完整数据中原有的规律,影响人们发现庞大数据中的关联规则。如何有效避开数据库中的干扰项,找出数据规律,提取出核心数据成为了数据筛选的首要难题。
1.2数据筛选的软件与算法选择困难
由于大数据时代背景下,不完整数据具有多元化的特征,这就导致了不完整数据的筛选时,软件与算法的选择较为困难。以往的不完整数据的筛选经验很有可能并不适用于现如今正面临的问题,以前行之有效的数据筛选软件与算法可能并不适用于现有的不完整数据的筛选,这样也就无法从中提取出自身所需求的核心数据。现有的很多软件可以用于单一条件的数据筛选,筛选内容范围较窄。当软件进行多条件的筛选之时,只适用于整个数据库的筛选,对于同一行或是同一列的筛选功能又不支持。其次,很多软件的筛选过程不能受到干扰,如果在数据筛选的过程中临时添加数据,引起数据源发生改变时,软件并不能实时更新,新增数据往往不能进入到筛选范围当中。而且,已有不完整数据中有的数据已经确知其不具有效用,筛选软件也不能将其进行有效剪切。对于延伸的数据对比项目,更是无法寻找出多项数据库的相同处与不同处,无法利用大数据库判断重复数据和有效数据。
2 不完整数据筛选出核心数据的有效办法
2.1使用适用于不完整数据筛选的算法
不完整数据的筛选过程中,主要问题就是寻找数据的有效规律,通过寻找数据中的关联性降低数据筛选的困难程度。经过几年内的数据筛选的深入研究,Apriori算法从以往的只能计算完整数据,已经延伸发展至可以应用于不完整数据的筛选。但是,这种Apriori算法应用于不完整数据的筛选之中时,需要提前确定不完整数据库的值域范围,对于其中不存在的数据项,要确保其数据不会超过数据库的值域范围。在这样的前提下,不论是完整数据,亦或是不完整数据的筛选,Apriori算法都能够有效计算数据的关联规则,对其支持度和可信度进行有效估算。从而有效的筛选出有用数据的范围。但是,基于其局限性,近年来的很多领域都研发出了适用于当前条件的算法。例如,近年來的人工智能领域。很多研究学者就基于原有的Apriori算法,开发出一种全新的贝叶斯法,可以从丢失数据的子集中迅速确定丢失数据的取值范围、概率分布。由此可见,根据数据丢失的具体情况和数据适用范围,选择有效的算法尤为重要。
2.2使用具有通用性的筛选软件
目前,数据的筛选软件多种多样,我们应当选择一项具有通用性的筛选软件。这样一来,在面对多项数据筛选时可以节约时间。目前,国内最通用的数据筛选软件就是EXCEL表格,EXCEL筛选适用于大多数的民用数据、企业数据的筛选。EXCEL可以直接复制粘贴不完整的数据源,并且在筛选过程中也可以完成这一项目,即时数据庞大,EXCEL也可以轻松完成数据覆盖,避免了人工输入的麻烦。并且,EXCEL可以按照数据规律进行有效排序,将同一类型的数据按自身需求进行独特排序,方便寻找其中的核心数据。同时,它还支持某一范围内的数据的多条件筛选,我们可以根据对核心数据的要求,设置多样条件,缩小核心数据的范围,更快捷的找寻不完整数据库中的核心数据,进行有效提取。其次,即使在数据源不断发生变化的时候,EXCEL也能实时更新,将新添加的数据进行统一筛选,这样可以保障在遗漏数据的时候,后续补偿添加的数据也具有有效性,减少数据筛选周期。
3 结语
不完整数据的筛选是人们日常生活中经常面临的问题,尤其是在企业运营过程当中,由于各方面原因导致的数据丢失情况在所难免,从不完整数据中有效的提取出相应的核心数据是一门企业生存的必修课。利用合理有效的算法缩小核心数据范围,在运用功能强大的软件进行核心数据的提取可以大大提升不完整数据的有效价值。
参考文献:
[1]李超,李悦丽,安道祥,王广学.数据筛选的低频UWB SAR图像快速可视化[J].中国图象图形学报,2015,20(01):151-158.
[2]张维理.海量空间数据提取、整合与制图表达方法概要[J].中国农业科学,2014,47(16):3231-3249.
[3]柯郑林.样本观测值数据筛选标准的分析[J].科学技术与工程,2008(20):5672-5674+5681.
作者简介:吴冬燕(1979.11-),女,汉族,浙江省省宁波市人,硕士研究生学历,浙江工商职业技术学院讲师,邮编:315012,研究方向:数据库技术,数据处理与分析。