基于模板的Web全站数据信息抽取的研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:thirdpine98
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网和移动互联网的快速发展促使全球数据量爆炸式地增长,Web已经成为各领域最具潜力和价值的巨大信息来源。Web网页中除了用户关注的正文等相关信息,还包含着导航、广告和版权等大量与网页主题无关的噪声信息。面对海量、繁杂的Web信息,如何快速有效地获取所需要的信息来做进一步的挖掘,获得更多潜在价值成为一个具有研究意义和实用意义的课题。Web信息抽取(Information Extraction)的研究正是为了满足这些需求而出现的热点研究方向,并被广泛应用于商业数据挖掘、社交网络分析和垂直搜索引擎等领域。所谓Web信息抽取,即从半结构化或者非结构化的Web页面中抽取数据,转化成结构化的数据以进行挖掘和利用。目前,互联网上的网页大多是通过模板动态生成的,基于机器学习的信息抽取方法和基于统计的信息抽取方法都过于依赖语料的质量和数量,并没有充分利用网页的模板和结构特征,并且标注数据在不同语言上分布不均衡,在一定程度上也影响了Web信息抽取的准确性。因此为了从某些类似的网页中提取出结构化的信息,可以充分利用网页的结构特征,挖掘这类网页的共同点,找出网页对应的模板,并用模板去抽取网页中的信息。基于对Web信息抽取相关研究背景及现有抽取算法所存在问题的分析,本文所研究的内容是:(1)提出了一个面向Web全站数据的信息抽取算法框架。对海量的各式网页组成的数据,先利用改进的后缀树结构高效地找出每个网页的重复记录,对DOM(Document Object Model)树进行剪枝并合并重复记录,然后通过聚类将不同模板生成的网页分开,在每个类别中利用无监督的方法抽取对应的模板,利用这些模板抽取关键信息。(2)提出了一种基于改进K-Means的增量聚类组合模型。该模型基于DPM(Dirichlet Process Mixture)模型学习一个合适的聚类个数K值,然后通过K-Means进行聚类。同时针对Web全站网页数据量大的特点,在聚类的过程中,加入局部敏感哈希方法计算类的指纹信息,用其来筛选出小部分备选类,再从备选类中找出最相似类,对相似类进行增量合并,从而快速将不同类型的网页类别区分开来,方便抽取网页模板。(3)提出了充分利用网页结构特征的模板抽取和匹配算法,即利用改进的最大公共子序列(LCS)算法,结合DOM树的深度信息抽取网页模板,根据模板对新网页进行匹配并进行内容抽取。为了验证算法的有效性,本文从主流Web站点获得的数据入手,对核心模块进行了详细的实验和分析,同现有的部分抽取算法进行了实验效果比较,结果表明,该方法能够自动寻找并抽取网页主要信息,抽取准确率有明显的提升。
其他文献
机载激光雷达系统是一种集成了GPS、惯性导航、激光测距等先进技术的主动式对地观测系统,具有自动化程度高、控制测量依赖性少、成图周期短、受天气影响小等特点,给测绘行业带来一场新的技术革命。机载LiDAR系统有效地拓宽了数据的来源范围,它能够快速获取精确的高分辨率的地表三维坐标信息,使数据获取模式从传统的前方交汇转变为连续自动的数据获取,也使数据处理朝着自动化的方向更进一步。本文从工程应用的角度研究分
安全是一切生产活动之本。为保障一切生产活动安全进行,追求安全生产是人类理性状态。在追求安全生产过程中,前人先后提出了系统安全、产品安全、本质安全等安全理念,并认为建设本质安全型企业、社会是目前安全生产追求的最高理想状态。然而,由于企业、社会、人员自身的局限性,无法完全实现。所以本文从人的主观能动性角度出发,提出以人为中心的主动安全理念,意图从人的主动性视角进一步研究安全管理、事故的责任预防问题,寻
作为第三代激光器,光纤激光器充分显示出其他激光器所不具备的优良性能。光纤激光器具有低阈值、高效率、结构紧凑、重量轻、稳定可靠、无需水冷、且与现代通信系统相兼容等
在市场经济飞速发展的今天,现代的市场竞争越来越激烈,电话营销作为一种行之有效的手段已经成为了许多企业的常备销售手段之一。在建立客户关系、规范服务流程、考核员工绩效
目的:核糖体蛋白S6激酶(RPS6KA1)是一个高度保守的Ser/Thr激酶,别名RSK1,属于RSK家族成员,近年来有较多研究报道RSK家族与多种肿瘤的发生和发展有关,但其在肺癌中所发挥的作用研究较少。本研究的主要目的是探讨RPS6KA1在肺腺癌中的表达水平和预后价值。方法:在本研究前期,首先对本院21例非小细胞肺癌(non-Small Cell Lung Cancer,NSCLC)患者组织标本
随着京津冀协同发展,天津滨海新区成为华北地区最主要的石化工业基地。在石油开发利用过程当中,由于“跑冒滴漏”使得石油入渗到地下含水层中,对地下水环境造成污染。本文以
光伏发电技术是未来最重要的能源技术之一,染料敏化太阳能电池(DSSC)是新一代光伏电池的重要成员,低消耗、低成本和高理论效率的优势使其具有巨大的应用前景,开发稳定、高效的DSSC对解决能源危机和环境污染问题具有重大意义。DSSC光阳极TiO_2多孔层厚度对其性能有重要影响,本文制备了不同厚度的光阳极TiO_2薄膜,组装电池后进行光电性能测试。对于液态电池,TiO_2膜厚为13.2μm时器件性能最好
海量数据分析技术是当今时代热门研究方向,同时也是未来几年的研究重点,对于该方向的深入研究有着很好的前景。在科学研究领域,复杂性分析查询导致了网络和IO的大量消耗。这
随着支持实时通信的移动互联网应用蓬勃发展,电信运营商有被彻底“管道化”的威胁。尽管电信运营商拥有丰富的网络资源以及海量的用户资源,但其能力的封闭性却导致其无法与移
当今社会发展愈来愈快,世界经济高速发展的同时能源的消耗速度也逐渐增加,石化能源的过度使用导致我们赖以生存的地球环境受到严重污染,所以积极寻找环保洁净的能源成为热论和研究的重要话题,生物柴油作为环保燃料受到世界各国学者的广泛关注。本文采用溶剂热法合成UiO-66及其衍生物,合成中添加不同的调节剂调节锆基MOFs结构。采用XRD、SEM和FT-IR等方法进行表征,研究不同的调节剂和添加量对锆基MOFs