基于树自动机的网页数据抽取

来源 :北京理工大学学报 | 被引量 : 0次 | 上传用户：jerklie198091

【摘要】

：

为了自动将数据从HTML网页中抽取出来，采取树自动机推断方式进行数据抽取．核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机，利用所得到的树自动机对

【作者】

：

王茹宋瀚涛陆玉昌

【机构】

：

北京理工大学信息科学技术学院计算机科学工程系,清华大学智能技术与系统国家重点实验室

【出处】

：

北京理工大学学报

【发表日期】

：

2004年9期

【关键词】

：

数据抽取树自动机 WEB网页 HTML data extraction tree automata Web pages HTML

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为了自动将数据从HTML网页中抽取出来，采取树自动机推断方式进行数据抽取．核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机，利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取．该方法充分利用了HTML文档内在的树状结构，设计了简单方便的样本网页标注形式．实验表明，该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法．

其他文献

浅析行政生态学视角下的当代西方行政改革

行政生态学视角下的20世纪80年代的新公共管理改革浪潮不仅受到各国国内环境的影响,更受制于整个国际环境。但每个国家的具体国情不同造就了不同的行政改革模式。

期刊

行政生态学新公共管理改革行政改革

基于Bayes方法的多元正态应力强度可靠度分析

实际工程中,应力和强度是多维相关的,且相关信息很难获得,使用传统的单维应力-强度干涉模型很难进行可靠度分析,需要研究多元应力-强度干涉模型的可靠度计算问题。描述了两种

期刊

BAYES方法多元应力-强度干涉模型可靠度分析正态分布Bayesian method multivariate stress-strength int

早期康复及中药三七治疗脑梗死

目的:观察中药三七提取物血塞通加早期康复治疗对脑梗死的疗效.方法:200例脑梗死患者随机分为2组,研究组100例采用血塞通200 mg加5%葡萄糖或生理盐水250～500 ml静脉滴注,生命

期刊

早期康复中药三七脑梗死中医药疗法cerebral infarction Chinese medicine notoginseng early re

动能弹对混凝土靶板侵彻三维数值模拟

根据描述材料特性的经验公式和流体力学的基本理论,对控制方程组在欧拉网格上进行离散差分求解,建立三维数值模拟模型,给出一种基于Youngs技术的三维界面处理方法,并对动能杆

期刊

侵彻有限差分界面三维数值模拟penetration finite-difference interface 3D numerical simula

向量空间上可公开验证的秘密共享

基于RSA密码算法,提出一个非交互式的可公开验证的向量空间上的秘密共享方案(方案1),其中的可公开验证性是通过公开有关秘密数据的承诺而实现的,任何人在恢复秘密过程中可验

期刊

RSA密码算法向量空间秘密共享公开验证RSA algorithm vector space secret sharing publicly ver

C60-PMMA复合膜的红外光谱研究

用溶胶-凝胶法制备了C60-PMMA复合膜,研究了该膜的红外吸收谱,发现复合膜的红外吸收光谱在C60特征峰(1 182 cm-1和1 428 cm-1)附近,相对PMMA有明显的"红移"宽化.理论上,采用G

期刊

溶胶-凝胶C60-PMMA复合膜电荷转移效应红外光谱sol-gel method C_(60)-PMMA composite films char

基于树自动机的网页数据抽取

其他学术论文