融合样式布局特征的跨网站网页信息提取技术研究

来源 :谢修远 | 被引量 : 0次 | 上传用户:hawk327
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页信息提取旨在自动从网页中提取指定的数据,是很多下游任务的数据源头。如何高质高效地从海量网站中提取信息是一直在研究的问题,早期方法通过对每个网站提供少量提取示例能达到很高的精度,但人工开销会随网站数增长。后来有研究利用网站数据的领域特征完成了跨网站提取,但难以应用到其他领域的网站。现在有方法利用深度学习能在少量网站标注的数据上训练就完成对同领域网站的提取,对不同领域网站只需准备数据重新训练即可,但只利用了网页源文件信息,提取依赖视觉线索的信息时容易出错。针对这一问题,以跨网站、非领域限定为基本要求,提出了融合样式和布局特征的网页信息提取方法Web SLG(Web information extraction using Style and Layout aggregated by Graph Convolution Network)。网页中的信息以由HTML标签构成的DOM节点呈现,因此,Web SLG将跨网站网页信息提取建模为DOM节点标注的多分类任务。主要特点为:(1)自动控制浏览器打开网页获取每个DOM节点的渲染结果,充分利用渲染获取的样式和布局信息提升提取效果;(2)引入图卷积网络学习DOM节点上下文的特征表示,替代基于启发式规则设计的节点上下文特征。由于引入了图卷积网络,对于内容节点,通过利用渲染所得布局信息与DOM树结构,提出了基于分块布局的内容节点图构建算法,使得同属一个分块的内容相关度高,按自然行文顺序构建边,属于不同分块的内容只在分块成包含关系时才构建边。相比全连接图或简单邻接图,可以避免节点聚合过程中引入不相关的噪声上下文,并在跨网站提取任务中整体布局不同时仍有一致的局部布局关系。通过对8个不同领域的公共数据集进行实验,在网站样式布局保存较好的领域中F1值达到了最好的94.49,相比最先进的通过扩展Bert架构进行预训练的方法只低了0.9个点,验证了方法的有效性。通过在强依赖视觉线索弱语义特征的政务公告信息数据集上实验,超越针对该领域的基于规则的方法,验证了方法灵活性的优势。
其他文献
新型非易失性内存(Non-Volatile Memory,NVM)具有高性能、字节访问粒度及掉电不易失的特点。为兼顾性价比,通常将非易失性内存与固态盘(Solid State Drive,SSD)混合使用,基于NVM和SSD混合结构的键值存储已成为重要研究方向。日志结构合并树(Log-Structured Merge Tree,LSM-Tree)被广泛应用于键值存储研究,但其层次结构造成的读写放大
学位
容器是一种操作系统级虚拟化技术,具有资源利用率高,部署快速和移植性灵活等特点。然而,多容器会共享主机操作系统的内核I/O(Input/Output)栈,导致其并发执行文件操作时需竞争I/O栈中的共享资源,严重限制了容器的I/O性能。资源竞争产生的主要原因在于操作系统内核I/O栈对容器无感知。一方面,虚拟文件系统(Virtural File System,VFS)无法利用容器的层级特性,难以与层级文
学位
云块存储(Cloud Block Storage,CBS)系统是当前云存储系统中的一种主流存储架构,云供应商通过搭建云块存储系统为租户提供虚拟块级存储设备(称为云盘)。近些年来,云上工作负载种类以及存储的数据量飞速上升,云盘数量达到数百万块,云块存储系统存储集群利用率不断增加,为云块存储系统的资源管理带来的巨大的挑战。云块存储系统中资源管理的一种主要方式是分配云盘到合适的存储集群。传统的分配策略由
学位
信息时代下海量数据的存储和处理一直是困扰着人们的难题。在此背景下,各种新型存储技术和计算架构被提出并得以不断发展。其中,相变存储器不仅存储性能优异,而且还因其阈值转换及缓变式结晶/非晶化过程而具备模拟生物突触和神经元行为的能力,有望作为神经形态器件以实现类脑计算。然而,目前对相变存储器的神经形态应用研究仍处于初级阶段,存在着器件功能单一且性能不佳等问题。对此,本文提出了一种基于GeGaSb的相变存
学位
测井曲线聚类属于石油勘探领域的地层分布区域性宏观研究,聚类后不同的井形成的集合可以使用相同方法分析,打破对测井“一孔之见”的传统认识,帮助测井解释人员形成全面完整的地层分析。测井曲线聚类的实现可以为相关工作人员提供新的测井曲线分析工具,为测井曲线分析带来更多的选择,具有重要的现实意义。测井曲线聚类通常包括预处理、相似度计算和曲线聚类三步。曲线预处理实现曲线的深度对齐和曲线数据量压缩。曲线相似度计算
学位
近年来,随着信息化、数字化进程的加速发展,中国数据中心产业规模增长迅猛,造成了行业能耗以及碳排放急速增长。此外,“碳达峰·碳中和”的背景下相关部门对数据中心行业的用能管理提出了高能效、低排放的要求。因此,将分布式新能源发电接入数据中心能源系统是必然的趋势。显然,接入分布式新能源发电可以降低数据中心对电网的依赖、降低碳排放量。然而,新能源的高不确定性和强随机性,会对数据中心能源系统的供能安全性、稳定
学位
岩性是地质描述的关键指标,能反映地下油气资源的空间分布,因此测井岩性解释对地质勘察及资源开发有着重要意义。目前传统测井数据驱动的岩性识别方法存在一定的局限性:1)测井数据存在异常值、岩性样本不平衡等问题,影响岩性识别模型的训练质量;2)原始测井表征中样本相互独立,无法表示相邻采样点、测井曲线之间的耦合关系;3)不同井或地区采集的测井数据分布具有差异性,导致跨域岩性识别模型的适用性不佳。针对上述问题
学位
近年来,使用电阻式随机存储器(Resistive Random-Access Memory,Re RAM)作为基础的存算一体(Computing-In-Memory,CIM)架构已经成为解决传统冯·诺依曼体系结构中“内存墙”问题的一种高效方式。它能利用基尔霍夫电压/电流定律实现高度并行的模拟计算,能支持部分算术运算与布尔逻辑操作。但是,由于其功能比较单一,它往往需要与通用处理器协同使用。然而,基于
学位
2003年浙江大学、宁波大学等七所非师范院校设置教育硕士专业学位授权点,此后非师范院校逐渐成为培养教育硕士的主要力量。截至2021年底,共有108所非师范院校设置了教育硕士专业学位点,成为教育硕士专业学位教育发展不可或缺的一环。随着教育硕士专业学位教育的发展,非师范院校参与教育硕士培养出现了分化。本文主要的研究重点是非师范院校参与教育硕士培养的发展历程及分化现象。首先通过对以往教育硕士专业学位的相
学位
近年来,随着各类岩土工程项目数量的增加和规模的扩大,在暴雨、地震等自然因素的影响下,边坡失稳破坏事故越来越多,边坡安全的可靠度问题尤为重要。传统一次可靠度求解方法精度有限,且边坡功能函数高度非线性、难以显式表达,故本文提出结合BP神经网络和Laplace渐近方法用于边坡可靠度分析,对边坡工程的稳定性研究具有重要的理论参考和实用价值。首先,以顺层边坡为研究对象,推导其极限状态方程,利用映射变换法,求
学位