基于XML的WEB信息自动抽取方法的研究

来源 :河北工业大学学报 | 被引量 : 0次 | 上传用户:tju515
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展以及Web数据的日益庞大,使用户从Web中获取有用信息变得日益困难,如何快速有效地从Web中准确抽取信息已经成为亟待解决的问题,Web信息抽取技术应运而生.提出了一种新的基于XML的WEB信息自动抽取方法,采用数据转换算法将HTML文档标准化,通过学习样本实例的XPATH表达式,形成抽取规则库,并利用规则库对其它同类页面实现信息的自动抽取.实验结果表明,该方法具有较高的查全率和查准率,且抽取结果具有自描述性,方便于建立各个领域的数据抽取系统.
其他文献
房地产业已经成为我国国民经济的支柱产业,研究房地产市场发展阶段,对投资者进行投资决策和消费者购房具有指导意义.文章在对房地产市场发展阶段进行指标选取和界定的基础上,运用
软土地区深基坑支护工程是一项复杂、安全性要求高的工程.在沿海地区,地下水位高,淤泥质土层厚,深基坑支护工程的风险更大.为了研究深基坑开挖之前实施长时间基坑降水对软土
介绍了一种新型带内肋片的相变蓄能换热器,利用Fluent 6.2软件研究了相变材料的融化和凝固过程,研究了不同相变层厚度,不同温度差和不同入口速度等多种工况的蓄热过程,并讨论
一把好剑需要千锤百炼,一块好玉需要精雕细琢,一节好课的诞生离不开反复推敲修改。四年级下册《倍数和因数》一课教学,有两道坎始终绕不过:一是学生对倍数和因数的意义理解不到位
《现代汉语词典》对“有效”的解释是“能实现预期目的,有效果”。教学的有效性,就是在教学活动中,用最少的时间、投入最少的精力,取得尽可能多、尽可能好的教学效果,最终实现既定
今天进行了第四单元测试。我正在马不停蹄地埋头改试卷,突然发现有一道解决问题学生错得比较多,而且错误答案也一样:有一块平行四边形草地,要在它的四周围上篱笆,你能求出篱笆
采用直流磁控溅射法进行ZnO薄膜的制备,探讨了O2/Ar对薄膜方块电阻,退火对薄膜结构的影响.在对不同退火温度的ZnO薄膜的气敏特性进行测试后表明:较低的退火温度有利于提高器件气
随着教育改革的持续深化,信息技术在教育变革中的助力作用正逐渐凸显。在“一对一数字化学习”理念的支撑下,“电子书包”正成为教育装备的热点,在一些地区逐渐推广开来。