基于不完整数据筛选的核心数据提取研究

来源 :电脑迷·中旬刊 | 被引量 : 0次 | 上传用户:az4112513
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着我国网络的迅猛发展,大数据时代已经来临。在此时代背景下,信息流传速度不断加快,所涉及的领域越来越宽泛,有许多并不完整的数据通过不同的渠道汇总在一起。在这些不完整的数据当中,可能含有大量的高价值数据。如果能够在这些不完整数据中筛选出有利用价值的核心数据,那么这些不完整数据的作用就能够体现出来。本文将深入探究不完整数据的有效性,研究从不完整数据中筛选出核心数据的方法,旨在帮助各行各业能够在不完整数据中提取出核心数据。
  关键词:不完整数据;核心数据;筛选与提取
  大数据时代的背景下,数据筛选是许多企业的必修课。在企业的日常运营中,获取数据不完整等事项时有发生。在没有相应的备用文件的时候,数据丢失就会造成企业数据库的不完整。如果企业出现核心数据的残缺,为了满足企业的日常工作需求,从不完整数据中筛选出核心数据是企业运行的唯一途径。由于数据丢失时,不完整数据中往往含有一定的规律性,这也给不完整数据的筛选、提取提供了一定的可能性。如何基于不完整数据筛选出核心数据,就需要建立一个有效的数据库,运用相应的算法进行提取。
  1 不完整数据筛选出核心数据的问题
  1.1核心数据难以发现
  不完整数据的信息量往往过于庞大,仅凭人工提取的方式显然不切实际,从中筛选出核心数据往往是采用关键词检索的方式。但是,关键词检索出的数据很大概率会遗漏掉一些潜在的有用数据,数据提取的有效率会大打折扣。从不完整数据筛选的现状来看,筛选核心数据的效果较差,往往得不到有效的结果。筛选出的核心数据往往并不全面,有些筛选结果还会出现与核心数据不匹配的信息。其次,不完整数据中往往还有大量的干扰项,这些具有干扰性的数据会影响到核心数据的提取。具体表现为干扰信息会打乱不完整数据中原有的规律,影响人们发现庞大数据中的关联规则。如何有效避开数据库中的干扰项,找出数据规律,提取出核心数据成为了数据筛选的首要难题。
  1.2数据筛选的软件与算法选择困难
  由于大数据时代背景下,不完整数据具有多元化的特征,这就导致了不完整数据的筛选时,软件与算法的选择较为困难。以往的不完整数据的筛选经验很有可能并不适用于现如今正面临的问题,以前行之有效的数据筛选软件与算法可能并不适用于现有的不完整数据的筛选,这样也就无法从中提取出自身所需求的核心数据。现有的很多软件可以用于单一条件的数据筛选,筛选内容范围较窄。当软件进行多条件的筛选之时,只适用于整个数据库的筛选,对于同一行或是同一列的筛选功能又不支持。其次,很多软件的筛选过程不能受到干扰,如果在数据筛选的过程中临时添加数据,引起数据源发生改变时,软件并不能实时更新,新增数据往往不能进入到筛选范围当中。而且,已有不完整数据中有的数据已经确知其不具有效用,筛选软件也不能将其进行有效剪切。对于延伸的数据对比项目,更是无法寻找出多项数据库的相同处与不同处,无法利用大数据库判断重复数据和有效数据。
  2 不完整数据筛选出核心数据的有效办法
  2.1使用适用于不完整数据筛选的算法
  不完整数据的筛选过程中,主要问题就是寻找数据的有效规律,通过寻找数据中的关联性降低数据筛选的困难程度。经过几年内的数据筛选的深入研究,Apriori算法从以往的只能计算完整数据,已经延伸发展至可以应用于不完整数据的筛选。但是,这种Apriori算法应用于不完整数据的筛选之中时,需要提前确定不完整数据库的值域范围,对于其中不存在的数据项,要确保其数据不会超过数据库的值域范围。在这样的前提下,不论是完整数据,亦或是不完整数据的筛选,Apriori算法都能够有效计算数据的关联规则,对其支持度和可信度进行有效估算。从而有效的筛选出有用数据的范围。但是,基于其局限性,近年来的很多领域都研发出了适用于当前条件的算法。例如,近年來的人工智能领域。很多研究学者就基于原有的Apriori算法,开发出一种全新的贝叶斯法,可以从丢失数据的子集中迅速确定丢失数据的取值范围、概率分布。由此可见,根据数据丢失的具体情况和数据适用范围,选择有效的算法尤为重要。
  2.2使用具有通用性的筛选软件
  目前,数据的筛选软件多种多样,我们应当选择一项具有通用性的筛选软件。这样一来,在面对多项数据筛选时可以节约时间。目前,国内最通用的数据筛选软件就是EXCEL表格,EXCEL筛选适用于大多数的民用数据、企业数据的筛选。EXCEL可以直接复制粘贴不完整的数据源,并且在筛选过程中也可以完成这一项目,即时数据庞大,EXCEL也可以轻松完成数据覆盖,避免了人工输入的麻烦。并且,EXCEL可以按照数据规律进行有效排序,将同一类型的数据按自身需求进行独特排序,方便寻找其中的核心数据。同时,它还支持某一范围内的数据的多条件筛选,我们可以根据对核心数据的要求,设置多样条件,缩小核心数据的范围,更快捷的找寻不完整数据库中的核心数据,进行有效提取。其次,即使在数据源不断发生变化的时候,EXCEL也能实时更新,将新添加的数据进行统一筛选,这样可以保障在遗漏数据的时候,后续补偿添加的数据也具有有效性,减少数据筛选周期。
  3 结语
  不完整数据的筛选是人们日常生活中经常面临的问题,尤其是在企业运营过程当中,由于各方面原因导致的数据丢失情况在所难免,从不完整数据中有效的提取出相应的核心数据是一门企业生存的必修课。利用合理有效的算法缩小核心数据范围,在运用功能强大的软件进行核心数据的提取可以大大提升不完整数据的有效价值。
  参考文献:
  [1]李超,李悦丽,安道祥,王广学.数据筛选的低频UWB SAR图像快速可视化[J].中国图象图形学报,2015,20(01):151-158.
  [2]张维理.海量空间数据提取、整合与制图表达方法概要[J].中国农业科学,2014,47(16):3231-3249.
  [3]柯郑林.样本观测值数据筛选标准的分析[J].科学技术与工程,2008(20):5672-5674+5681.
  作者简介:吴冬燕(1979.11-),女,汉族,浙江省省宁波市人,硕士研究生学历,浙江工商职业技术学院讲师,邮编:315012,研究方向:数据库技术,数据处理与分析。
其他文献
本论文将以山西女作家蒋韵的小说创作作为主要的研究对象,以文本细读作为最基本的研究手法,对蒋韵笔下众多的人物形象进行整体性的归纳与梳理。论文将采用递进式的方式论述,由人
方方是当代文坛上始终保持着悲悯情怀的作家。方方小说中蕴含着的丰富独特的悲剧意识,体现于她对底层民众和知识分子的苦难叙事、对整个宇宙和生命的悲剧审视、对人性灵魂的深
摘要:在新时代的发展中,随着对电子信息技术的研究不断的深入,电子信息技术产业的发展规模越来越大,且为国民经济的增长做出了巨大的贡献。但是在“新常态”下,其为电子信息产业的发展带来了不确定性,使得其中“僵尸企业”的占比逐渐的升高,为了更好的促进我国电子信息产业的发展,可以采取相应的政策进行有效的改革,即“供给侧改革”政策。可以从技术的层面、治理方面以及扶持力度等等方面进行分析。在电子信息产业的发展过
基于对 TCSC次同步频率等效阻抗特性的研究 ,分析了 TCSC次同步频率等效电阻和等效电抗对抑制次同步谐振 (SSR)的不同作用。发现系统中 SSR的抑制主要取决于 TCSC的次同步频
学位
期刊
摘要:随着我国社会的不断发展,科学技术的不断进步,在信息与互联网、新材料与新能源、自动化与人工智能等技术的推动下,使得智能机器人的研究成为新兴行业中增长最快的领域之一,全球正迎来一个以智能机器人为主体的新科技时代,完成了科技的新突破,研制智能机器人的目的是辅助人甚至替代人完成更多的人类难以完成的危险繁重以及复杂的工作,提高人们的工作效率与质量,甚至服务于人的生活并扩大或延伸人的活动及能力范围之外的
摘要:对 5G移动通信网络中的关键技术进行分析,总结通信网络中的关键技术,旨在通过网络通信技术的研究,进行关键技术的总结,构建完善性的网络通信管理策略,实现5G移动通信网络的稳定发展。  关键词:5G;移动通信网络;关键技术  在社会发展的状况下,信息技术的高速发展满足了我国移动通信网络技术的使用需求,移动通信技术经历了2G、3G以及现阶段的4G发展模式,在移动通信技术网络速度提升的状况下,这种快
学位
提出一种基于同步相量测量的电压稳定评估算法.算法中只需要利用局部同步相量测量,即被监测负荷节点的同步电压相量,及由与其相连接的同步电压相量所得到的等价电压相量,建立