Web数据抽取技术的实现

来源 :科技信息·中旬刊 | 被引量 : 0次 | 上传用户:weiyuhang99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着信息技术的不断发展,Web上的信息内容和数据呈现出爆炸式的增长,从而是Web成为一个巨大、丰富、分布广泛的数据源,有效的在Web上实现数据的抽取技术为进一步的分析和挖掘提供了数据支持,具有十分重要的应用价值和现实意义。通过Web数据集成可以实现对Web数据的有效整合,为大数据分析提供信息源支持。本文对于Web数据抽取技术的现状、问题及实现进行分析,并提出对策建议。
  关键词:大数据;数据抽取;技术实现
  一、Web数据抽取技术概述
  随着信息技术的不断发展,Web上的信息内容和数据呈现出爆炸式的增长,从而是Web成为一个巨大、丰富、分布广泛的数据源,有效的在Web上实现数据的抽取技术为进一步的分析和挖掘提供了数据支持,具有十分重要的应用价值和现实意义。通过Web数据集成可以实现对Web数据的有效整合,为大数据分析提供信息源支持。Web信息抽取技术是随着互联网技术的发展、网页信息的扩充而产生,从手工到半自动再到全自动的技术完善使Web数据抽取技术成为大数据分析的主要技术。在此基础上形成的Web数据集成系统,Web数据集成系统中的数据,不仅可以为各类大数据分析提供信息支持,而且还可以为Web数据集成系统自身集成提供帮助。Web数据抽取技术的作用和意义主要体现在,一是Web数据抽取是实现Web数据集成的基础和保证,Web数据抽取可以完成对Web页面中农广泛存在的半结构化数据的抽取公祖,为Web数据集成奠定数据基础。二是Web数据抽取可以实现对Web数据的理解,Web网页中的数据大部分是半结构化数据,通过Web数据抽取技术的实现可以对抽取到的Web数据元素进行语言标注,实现对Web数据的理解。三是Web数据抽取为Web数据集成中的其他环节提供数据服务,Web数据抽取可以利用已抽取的Web数据对象间的联系,发现Web实体间的潜在联系,在Web数据集成系统中,利用Web实体间的联系,可以形成一个基于这些联系的实施知识库,为进一步实施Web数据集成的重复记录谈成册、数据分析等服务提供数据支持。
  二、Web数据抽取技术存在的问题
  随着信息技术的不断发展,Web上的信息内容和数据呈现出爆炸式的增长,从而是Web成为一个巨大、丰富、分布广泛的数据源,有效的在Web上实现数据的抽取技术为进一步的分析和挖掘提供了数据支持,具有十分重要的应用价值和现实意义。通过Web数据集成可以实现对Web数据的有效整合,为大数据分析提供信息源支持。在Web数据抽取技术的使用过程中也存在一些问题,一是在Web数据集成过程中,需要获取Web实体的模型信息,为进一步识别、抽取和集成来自不同数据源的Web数据对象提供指导,Web上大多数为半结构化数据模型具有异构和动态变化的特点,有效地构建Web实体模型信息是当前Web数据抽取技术中一个需要解决和完善的问题。二是在Web数据抽取过程中,需要准确地从目标网页中抽取目标数据,并对抽取的数据元素进行语义上的理解,为进一步整合数据奠定基础。准确地抽取目标数据,进行语义的标注也是当前Web数据抽取技术中需要精准化的一个问题。三是在Web数据抽取过程中,需要建立新发现的Web实体与Web实体模型中已有Web实体间的联系,丰富Web实体模型,为进一步整合Web数据奠定基础,有效地建立新发现的Web实体与Web实体模型中存在的Web实体间的联系,也是一个加以解决的Web数据抽取技术问题。
  三、Web数据抽取技术的实现
  随着信息技术的不断发展,Web上的信息内容和数据呈现出爆炸式的增长,从而是Web成为一个巨大、丰富、分布广泛的数据源,有效的在Web上实现数据的抽取技术为进一步的分析和挖掘提供了数据支持,具有十分重要的应用价值和现实意义。通过Web数据集成可以实现对Web数据的有效整合,为大数据分析提供信息源支持。目前,Web数据抽取技术中主要的实现路径主要有,一是基于自然语言处理方式的数据抽取,基于自然语言处理方式的数据抽取是以自然语言处理技术为基础,通常适用含有大量文本或者语句完成、适合语法分析的Web页面,在抽取的过程中,将网页作为自由文本进行处理,经过语法分析、語义标注、专有对象的识别和抽取规则生成的过程。二是基于HTML结构的信息抽取,Web信息抽取的主要对象是Web页面,这些页面通常是由HTML标记语言进行编写,具有非常清晰的结构层次。基于HTML结构的信息抽取就是利用了页面的结构来进行信息的定位,Web页面通过转换器解析成反映HTML结构的DOM树,在通过特定的方法将用户想抽取的数据定位到DOM树的层次位置上,然后利用正则表达等匹配技术来得到具体位置上的数据信息。三是基于XML的信息抽取,基于XML的信息抽取是运用XML的相关技术以XML模式的数据为数据源尽心抽取处理。由于抽取的目标是Web网页,而Web页上的数据一般是以HTML格式存在,所以通常先将页面转换为XML的格式再进行抽取。
  四、结束语
  随着信息技术的不断发展,Web上的信息内容和数据呈现出爆炸式的增长,从而是Web成为一个巨大、丰富、分布广泛的数据源,有效的在Web上实现数据的抽取技术为进一步的分析和挖掘提供了数据支持,具有十分重要的应用价值和现实意义。通过Web数据集成可以实现对Web数据的有效整合,为大数据分析提供信息源支持。在Web数据抽取技术的应用过程中,一是要结合大数据开发与分析的实际,不断更新Web数据抽取技术的实现方法,使Web数据抽取技术能够真正为大数据分析提供数据源和分析所需要的信息。二是在大数据开发与分析的过程中,灵活运用Web数据抽取技术,将Web数据抽取的各项技术进行综合运用,实现数据抽取的最优化及最效率,使提供的数据内容丰富、结构清晰、质量保证、效率提高。
其他文献
摘要:在改革开放以来,建筑行业也因此而得到了很好的发展,各类新型施工技术也逐步的被运用在相应建筑工程管理之中,然而将BIM技术在建筑工程管理之中,已经取得了初步的成效。BIM技术作为一项较为先进施工技术,在我们国家建筑行业之中应用的时间较短,技术也不够成熟。但是,全面化的运用BIM技术,可以从根本之上来加大建筑施工的水平与效率,这对于统筹管理施工质量、进度以及安全方面十分的有利,可以在最大限度之上
期刊
摘要:现阶段,我国的经济发展的十分的迅速,建筑工程在经济发展的推动下也逐渐的完善起来。建筑工程项目数量也不断增多,而施工管理的目的,就是保证建筑施工的合理性,以建筑施工质量为前提,综合各方面的因素。绿色建筑施工管理作为新型的管理模式,力求节约,减少对环境的破坏,节约资源,做到高效率、高质量。基于此,加强对建筑施工管理以及绿色建筑施工管理的研究意义重大。  关键词:建筑施工管理;绿色建筑施工管理  
期刊
摘要:近年来,随着人们环保意识的提升,为了减少风电生产污染,使用清洁能源,新能源风电产业得到了发展。但是,随着风电生产过程中,设备不断改进,设备备件逐渐增多。为了保证备件质量,保障设备安全运行,必须要对备件进行精细化管理。本文就新能源风电备件精益化管理研究进行探讨,在介绍其重要性的基础上,提出了推进新能源风电备件精益化管理的有效措施。  关键词:新能源;风电备件;精益化管理  众所周知,我国是一个
期刊
摘要:FM数字激励器是调频发射机的核心,本文对其工作原理进行了详细的阐述,并结合电台实际运用情况对使用时处理的故障情况进行了总结与分析。  关键词:音频处理;调制器;功放;故障处理  FM数字激励器采用DDS技术产生调制载波,采用DSP技术对音频信号进行处理,实现数字滤波、预加重、立体声编码、载波调制等。与普通模拟激励器相比,FM数字激励器因采用了数字化的处理技术,它的各项指标远高于模拟激励器,对
期刊
摘要:现阶段,我国的经济发展的越来越迅速,科学技术水平发展的也越来越快。计算机电子工程技术在人们的生产生活中占据的地位越来越重要,发展迅速,应用广泛且深入。国家对于计算机电子工程技术的发展出台了各种激励政策,采取措施长期扶持。因为我国在计算机电子工程技术的研究和运用上开始较晚,在摸索中发展,较为缺乏经验。为了让计算机电子工程技术更加成熟,解决有效运用与发展中的问题,需要加强先进科技的引进,借鉴发达
期刊
摘要:随着信息技术的不断发展,在档案管理工作中档案工作标准与标准化是档案信息化建设的重要内容和任务。在信息技术为基础,互联网+以及大数据分析为主流的信息社会发展中,通过档案工作标准与标准化的科学化、规范化、系统化建设能够实现档案的价值最大化,消除档案信息资源壁垒与孤岛,本文对于档案工作标准的原则、档案工作标准的要求以及档案标准的标准制定进行研究,在此基础上提出对策建议。  關键词:档案标准;档案标
期刊
摘要:网络通信工程的发展的同时给人民的生活带来了很大的方便,更好地促进生活的高效、和谐以及迅速地发展。这在通信工程方面来说,其工程项目的质量决定了工程的成败。在施工的过程中只有进行精细、全方面、科学的管理,才能建造出令人民满意的工程。本文主要是探讨了网络通信工程施工过程的问题。  关键词:通信网络;施工管理;控制  1、网络通信工程施工过程中的管理策略  1.1施工项目的管理者是整个施工管理的核心
期刊
摘要:在当前信息技术快速发展的新形势下,各种先进技术在档案工作中普遍应用,档案从纸质载体开始转变为电子档案。相较于纸质档案,电子档案的应用具有较强的优势,同时也是档案工作发展的必然要求。文中分析了电子档案管理原则,并进一步对加强电子档案管理工作的措施进行了具体阐述。  关键词:电子档案;管理原则;收集;归档;一体化;安全  在当前数字化背景下,电子档案已成为档案的普遍形式,而且电子档案的应用,也标
期刊
摘要:在当前经济快速发展的新形势下,工业化的发展进程较快,这也加重了水资源污染。由于我国人口基数较大,水资源利用较多,而且存在严重浪费情况。再加之当前水资源紧缺的问题日益严重,在这种情况下,需要加强水文档案的开发利用,全面提高强化对水文档案的管理,更好的促进水文工作的健康、有序发展。文中分析了水文档案的重要作用及其特点,并对进一步做好水文档案开发利用工作的措施进行了具体的阐述。  关键词:水文档案
期刊
摘要:随着我国社会经济的发展和进步,我国的超高层建筑越来越多,有许多已经成了一座城市的地标性建筑,而在这些超高层建筑工程中,机电安装是建筑工程中的重要组成部分,具有专业性、复杂性、系统性和技术性等多种特点,因此机电安装过程中常会面临变更问题。变更问题无法避免,但可通过有效的管理、技术水平的改进、人员素质的提升降低变更带来的负面影响,保障工程整体质量和经济效益。  关键词:机电安装工程;变更;控制管
期刊