基于树模型算法的动态网页信息抽取研究

来源 :第二届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:cfsjy4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
动态网页是Internet上重要的网页类型,它们通常是由网站的后台数据库通过某种通用的模板构成.如何从动态网页中抽取信息有着十分重要的意义,因为它们通常是一个网站最为主要的信息来源.本文提出了一种新的基于树模型算法的动态网页信息抽取方法.它通过树编辑距离模型和树归并算法(TreeAlign)分离并抽取出动态网页中的信息项.实验表明,这种基于树模型的抽取方法能够准确的定位和抽取动态网页信息.
其他文献
综述了芳纶纤维的性能、种类、与橡胶的粘合及其在各种橡胶制品中的应用情况。芳纶与橡胶粘合前常需进行预处理,主要方法有纤维表面活化、两次浸渍、改性RFL体系一次浸渍,或
本文对智能轮椅的控制系统进行了阐述。随着社会的发展和人类文明程度的提高,用于帮助残疾人行走的智能轮椅的研究已逐渐成为热点。本系统主要由凌阳(SPCE061A)单片机、电机
本文采用均匀设计法对丙烯酸锌[Zn(AA)2]作为EPDM与金属骨架材料的粘合助剂做了研究。试验结果表明:在硫化过程中,Zn(AA)2与金属之间产生了具有提高粘合作用的化学键,明显提
探讨间苯二酚-甲醛树脂(RF树脂)合成反应的影响因素。RF树脂的合成反应程度用乌氏粘度计在线测得的当量粘度表征.RF树脂溶液粘合性能好的最佳反应条件为:甲醛/间苯二酚摩尔比
电解多功能天车是电解铝生产车间工艺流程的重要设备,因其液压系统在设计时存在弊端,造成油管管接头频繁爆裂、液控单向阀损坏、油缸下滑等现象的发生,成为重大设备隐患,影响
通过对240kA电解槽槽控机控制参数的不断调整优化,同时加强各项作业的规范管理和工艺技术管理等项措施,使电解槽的氧化铝浓度合格率不断提高,从而取得稳定的槽况及良好技术经
在实验室用模压法制得铝电解TiB2/C复合阴极碳块,并用其进行电解渗透试验.采用XRD方法分析试样,并结合化学反应热力学,对TiB2/C复合阴极碳块在铝电解过程中的化学反应进行了
我国现阶段正处于从钢铁大国向钢铁强国最佳转型的时期,使企业与社会环境协调发展,节能降耗降低生产成本,加强节水行业和节水企业建设,实现企业循环经济的发展模式.为适应企
沿海地区有丰富的海水资源,用海水淡化技术向大海要淡水,是增加淡水资源,满足沿海城镇对淡水的需求是十分必要的,从技术、经济的角度讲,也是十分可行的.本文就海水淡化技术进
Web页面中"噪音"是影响基于网页内容的Web分类质量的一个重要因素,快速而准确的识别网页的主题内容是提高分类准确率的关键技术之一.针对HTML的半结构化特征和DOM缺乏位置信