面向大数据的Deep Web数据系统关键技术研究

来源 :城市建设理论研究 | 被引量 : 0次 | 上传用户:asdfasdf32111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:由于数据产生成本的急速下降,人类社会产生的数据不仅以指数级别增长,而且数据的结构变得日趋复杂,使得传统的数据分析技术遇到了极大的挑战。如何对大量复杂数据进行分析和挖掘,从中提取有价值的知识用于决策,已经成为产业界和学术界的广泛关注问题,在一些国家已上升到国家战略层面。本文介绍了大数据的基本概念、特征和面临的科学问题,总结了“Deep Web”课题的一些先期成果,为开发大数据管理、分析和挖掘系统提供一些参考依据。
  关键词:大数据;Deep Web;系统;技术研究
  中图分类号:TJ768.4文献标识码:A 文章编号:
  
  引言
  在全球经济的很多领域,大数据在以很多方式创造价值。随着各个经济领域不断挖掘大数据的潜力,我们正处在一个巨大浪潮的尖峰,这个浪潮,就是大数据驱动的创新、生产效率提高、经济增长以及新的竞争形式和新的价值的产生。
  1.大数据
  指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
  1.1大数据的特点,业界通常用4个“V” —Volume,Variety,Value,Velocity。或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。
   1.1.1数据体量巨大。从TB跃升到PB至EB级别。要知道目前的数据量有
  多大,我们先来看看一组公式。1024GB=1TB;1024TB=1PB;1024PB=1EB;1024 EB=1ZB;1024ZB=YB。到目前为止,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB。
  1.1.2数据类型繁多。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,越来越多的非结构化数据的产生给所有厂商都提出了挑战。拜互联网和通信技术近年来迅猛发展所赐,如今的数据类型早已不是单一的文本形式,除了网络日志、音频、视频、图片、地理位置信息等等多类型的数据对数据的处理能力提出了更高的要求。
  1.1.3价值密度低。价值密度的高低与数据总量的大小成反比。以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题。
  1.1.4处理速度快。这是大数据区分于传统数据挖掘最显著的特征。根据IDC的一份名为“数字宇宙”的报告,预计到2020年全球数据使用量将会达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
  2.大数据的价值
  2.1 现在有很多通过大数据分析受益的经典案例。美国的海啸预警系统一直为人们津津乐道,2011.3.11日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。随即,NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型便出现在YouTube等网站。大数据分析在指导人们有效规避自然灾害面前发挥了很大的作用.
    2.2在商业领域,eBay则很好地起到了示范作用。eBay定义了超过500种类型的数据,对顾客的行为进行跟踪分析,每天处理的数据量高达100PB,通过准确分析用户的购物行为,达到了减少广告投入、稳定高端卖家、实现持续增长的目的。
    通过案例可知,大数据分析的价值非常大。企业用来分析的数据越全面,分析的结果就越接近于真实,因此,大数据具有很大的商业价值。
  3.数据到大数据
   “大数据”与我们通常所说的“数据”有显著的不同。伴随着传统的商业智能系统向纵深应用的拓展,商业决策已经越来越依赖于数据。一般,企业的数据分3种类型:结构化数据、半结构化数据和非结构化数据。其中,85%的数据属于广泛存在于物联网、电子商务等之中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。企业用以分析的数据越全面,分析的结果就越接近于真实。
  4.Web数据库集成的研究现状
  Web数据库作为一种重要的Deep Web资源,其中包含了大量可供访问的数据信息。这些数据信息具有良好的结构化特征且指向特定领域的数据记录,因此能够为科学研究和系统应用提供更高质量的数据服务。以下是“Deep Web”课题的一些先期成果,可以为开发大数据管理分析和挖掘系统提供一些参考依据。Web数据库集成中针对Web数据库集成框架的结构模型,Web数据库集成中的若干关键技术提出了新颖、有效的解决方法,主要工作包括以下几点:
  4.1提出了一种基于元搜索模式的Web数据库集成框架。Web数据库集成框架的目的是为用户统一访问Web数据库资源提供支持。基于元搜索模式的Web数据库集成框架,能够透明的访问和及时的更新数据,并具有较低的系统运行代价。本文分析了实现Web数据库集成框架中所需的关键技术,将框架分为离线的Web数据库搜索模块和在线的查询处理模块。前者是从Web中发现特定领域Web数据库的查询接口,抽取其模式信息并对其进行分类;后者的目的是实现对Web数据库即时访问,抽取并标注查询结果记录,并将集成后的结果数据集返回给用户。
  4.2提出了基于实例的查询结果模式抽取方法。完整的模式信息对于数据集成有着至关重要的作用。对于Web数据库而言,查询接口模式决定其功能,而查询结果模式描述了其中的数据内容。现有的研究工作往往只关注于查询接口模式而忽略了查询结果模式。本文给出了基于标签的查询接口模式属性识别方法。在此基础上,提出了基于近似查询和精确查询的两段式模式匹配模型。通过在结果页面的DOM树中匹配查询关键字,并利用查询结果记录在页面中连续出现的特征识别模式属性。同时提出基于属性共现度的匹配方法提高模式属性的查全率和查准率。
  4.3提出了面向内容的Web数据库分类方法。现有基于领域的Web数据库分类方法已难以满足应用需求。为此,本文提出将领域中记录基于其内容划分为多个主题分类。主要解决方案为:使用主题分类中的样本实例对Web数据库查询探测,并基于查询返回的结果数量构建查询结果矩阵,该矩阵能够准确地反映出主题分类与Web数据库内容之间的匹配关系;基于矩阵内容得到主题分类。基于内容的分类结果能够为查询更准确地匹配Web数据库。
  4.4提出了一种有效的查询结果记录抽取技术。为避免对大量页面内容的语义匹配,有效地保证数据抽取的执行效率,本文首先基于URL匹配的方法准确的确定要抓取查询结果页面;之后利用查询结果模式抽取中识别出的模式属性路径定位查询结果记录,并实现查询结果记录的抽取与标注。基于属性路径构建的包装器能有效的改善连续查询结果页面中记录抽取的执行效率。
  4.5提出了一种基于模式属性间函数依赖关系的数据清洗方法。为提高来自多个Web数据库的查询结果记录的数据质量,该方法借助于实体识别技术,利用模式属性间函数依赖关系,能够有效地修复查询结果记录中不完全、不精确和不正确的属性值。同时,给出了增量式数据集成方法,即通过对记录集合的数据质量评估结果决定集成的顺序,有效地提高了数据集成的执行效率。
  4.6设计并实现了一个Web数据库集成的原型系统DDW Search。基于本文对Web数据库集成框架关键技术的研究成果,实现了基于特定领域的原型系统。用户可以通过系统提供的全局查询接口输入查询请求,并查看由多个Web数据库返回的查询结果。 总之,本文研究了Web数据库集成框架及涉及的关键技术,对其中包含的主要研究问题提出了新颖的解决方案。大量的实验结果与分析表明这些方法能够有效地解决在Web数据库集成中存在的问题,同时具有较高的准确性和执行性能。
  希望本文对于Web数据库集成的研究和提出这些方法对于大數据的研究工作具有一定的参考价值。
  5.结束语
  数据就是直接的财富。和互联网时代相比,大数据的时代,不仅意味着更广泛、更深层的开放和共享,还意味着更精准、更高效、更智能的管理革命。在大数据的时代,数据就是直接的财富、就是核心的竞争力。大数据时代的这些新应用和新的商业模式将影响改变全球每一个人的生活。
  
   参考文献:
   [1]聂铁铮,Deep Web中Web数据库集成关键技术的研究.
   [2]郑策 ,系统数据仓库的设计与实现.
   [3]涂子沛,大数据 .
其他文献
心功能不全,又称心力衰竭,是指在静脉回流正常的情况下,由于原发的心脏损害引起心排血量减少,不能满足组织代谢需要的一种综合征.是危害生命的急症之一,在临床上,引起慢性心
摘要:随着我国经济发展和社会文化底蕴的推进,人们对居住的要求越来越高,住宅设计中如何满足人们居住生活要求是关键的一环,本文主要阐述住宅建筑设计中的空间组合要点,对住宅的功能空间设计进行了分析。  关键词:建筑设计; 空间组合;  中图分类号:TU2文献标识码:A文章编号:    引言:  空间是物质存在的一种客观形式,由长度、宽度和高度表现出来,建筑空间是人们人为的为了满足人们生产或生活的需要,運
摘要:一条10kV配电线路往往带有十几台或几十台配电变压器,当其中一台配电变压器或某一条分支线路出现故障以及线路需要检修时, 都会造成整条10kV线路停电,严重影响了供电区域的供电量和供电可靠性。本文主要对10kV配电线路的常见问题及措施进行了探讨和研究。  关键词:10kV配电线路;常见问题;解决措施  中图分类号:U655.4文献标识码:A文章编号:    引言  10kV配电线路在我们的电网
摘要:本文描述了HXD1C机车交流异步牵引电动机(JD160A型)两年检修时在入厂试验过程中出现的轴承异音现象,并对电机出现的轴承异音现象进行分析,确定产生异音的根本原因;并将异音现象和异音原因进行分类对应,从而指导生产,通过改进提升产品质量,减少损失,提高电机运行的可靠性和稳定性。  关键词:JD160A型交流异步牵引电动机;轴承异音;分类;异音原因  中图分类号:U264.1+3文献标识码:A
摘要:工程项目全过程造价管理是一种全新的建设项目造价管理模式,是一种用来确定和控制建设项目造价的管理方法。因此在市场经济条件下,如何有效地控制工程造价是工程建设管理的重要组成部分。下面是作者分别对工程项目全过程造价的重要性,造价管理,策略做分析。  关键词:工程项目;造价管理;控制方法  中图分类号:TU723.3文献标识码:A文章编号:    引言   长期以来,我国工程造价的全过程服务分别由投
摘要:为合理利用水力资源,降低劳动成本,提高劳动生产率,保证水电站安全经济运行和人身安全,提高整体管理水平,水电站尤其是众多中小型水电站,必须强调其技术管理职能,方能既保障安全生产,又能提高电站的经济效益。  关键词: 技术管理;水电站;技术改造  中图分类号:[TM622]文献标识码:A文章编号:    引言  技术管理是对大型水电站生产中的一切技术活动进行科学的管理和严密的组织,使科技转化为生
摘要:建筑业是国民经济的支柱产业,建筑活动是直接间接消耗自然资源最大的生产活动之一,也是直接、间接产生大量有害气体和垃圾的生产活动之一。为确保经济社会的可持续健康协调发展,必须把建筑施工中的节能环保问题放在更加突出的战略地位。  关键词:建筑施工;节能现状;必要性;节能环保措施  中图分类号:TU7文献标识码:A文章编号:    引言  处于经济高速发展的今天,作为衣食住行中重要的一环,建筑节能必
摘要:现代酒店是一个多功能的综合体,文章在结合具体酒店项目设计,根据酒店的空间设计、室内设计与绿色节能设计,综合考虑到多方面的使用条件,让酒店设计因素充分的融合在一起,达到一个自然和谐的效果。  关键词:现代酒店项目;综合设计;分析和思考  中图分类号:V552+.2文献标识码:A 文章编号:    1.关于酒店空间设计的思考  1.1酒店空间设计分析  当下的很多大型酒店空间形态对顾客私密性的关
摘 要:随着我国经济建设的飞速发展,城市电网的建设也在不断进步,新技术不断更新,文章结合多年工作经验就110kV环进环出变电站优缺点、接线方式、保护配置及调度运行进行了简要论述。  关键词:选型设计;变电站;接线方式;保护配置;调度运行  中图分类号:TM411+.4文献标识码:A文章编号:    引言  随着城市电网建设的快速发展,在新建的ll0kV变电站中,从ll0kV直降l0kV采用环进环出
摘要:随着社会的发展,时代的进步,人们的对物质文明和精神文明等生活质量的要求越来越高。其中,人们对于建筑设计中空间组合的质量的需求日益提高,并呈现出多元化的趋势。从目前的情况来看,住宅建筑设计中的空间组合还存在着一些不尽人意的缺陷和局限,有待进一步探究出切实可行的解决办法。  关键词:建筑设计;空间组合;原则  中图分类号:TU2文献标识码:A文章编号:    引言  人们盖房子总有其具体的目的和