基于DOM的Web信息抽取

来源 :河北农业大学学报 | 被引量 : 0次 | 上传用户：njcdst

【摘要】

：

为解决因Web信息量巨大且具有动态性、不规则性,Web信息查询和Web信息集成存在很大困难,研究了对HTML格式的 Web文档的信息抽取,提出了一种基于DOM的Web信息抽取方法.该方法

【作者】

：

崔继馨张鹏杨文柱

【机构】

：

河北工程学院,河北大学

【出处】

：

河北农业大学学报

【发表日期】

：

2005年3期

【关键词】

：

DOM 包装器抽取规则信息抽取 DOM wrapper extraction rules information extraction

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为解决因Web信息量巨大且具有动态性、不规则性,Web信息查询和Web信息集成存在很大困难,研究了对HTML格式的 Web文档的信息抽取,提出了一种基于DOM的Web信息抽取方法.该方法通过附加语义、样本学习生成基于DOM路径的抽取规则,利用遍历DOM树实现信息抽取.本方法可用于Web查询,也可用于信息集成系统中包装器的构造.

其他文献

间歇运动对卵巢切除大鼠脊髓背角内吗啡肽2表达的影响

目的：探讨间歇运动对卵巢切除（ovariectomized,OVX）大鼠脊髓背角内吗啡肽2（endomorphin-2,EM-2）表达的影响。方法：体重180-200 g雌性SD大鼠,随机分为假手术组（Sham）、卵巢切除安静组（O

期刊

间歇运动卵巢切除脊髓背角内吗啡肽2热异常痛敏绝经期interval exerciseovariectomized spinal dorsal h

基于身体活力和老化速度的40~65岁男性体质年龄模型的构建

目的:基于体育活动能够改善身体活力和延缓老化速度的研究假设,在全民健身的大背景下构建体质年龄模型来个体化评估身体活力和老化速度。方法:研究对象为40~65岁健康男性76名

期刊

体质年龄身体活力老化速度体质测量physical fitness agephysical vitalityaging speedphysical

数学学习评价的内容与方法

学生，尤其是小学生学习数学，对其有一个客观、公正的评价不但对学生施以激励，而且对教师也提供了反思依据，对整个教学质量的提高将起着推动作用。

期刊