一种自适应的Web信息抽取规则自动生成方法

来源 :广西师范大学学报：自然科学版 | 被引量 : 0次 | 上传用户：daniel86999

【摘要】

：

提出一种自适应的Web信息抽取规则自动生成方法，通过多样本页面对比模式和单样本重复模式提取Web上复合类型的数据并进行迭代修正，基于语义分析的规则方法进行动态抽取。实验结

【作者】

：

【机构】

：

国家农业信息化工程技术研究中心,农业部农业信息技术重点开放实验室

【出处】

：

广西师范大学学报：自然科学版

【发表日期】

：

2010年1期

【关键词】

：

【基金项目】

：

国家自然科学基金资助项目（60871042）,国家农业部“948”项目（2006-G63）,国家863计划资助项目（2007AA10Z235,2007AA01Z179）,国家科技支撑计划项目（2008BADA0B05）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

提出一种自适应的Web信息抽取规则自动生成方法，通过多样本页面对比模式和单样本重复模式提取Web上复合类型的数据并进行迭代修正，基于语义分析的规则方法进行动态抽取。实验结果表明，该方法具有较好的精确性和鲁棒性。

其他文献

根据网页文本信息的结构和内容特征，提出一种网页主题文本信息的抽取策略，将网页文档表示为DOM标签树的形式，然后根据Web页面的结构特征进行内容块的分割，以网页的文本内容特征为

期刊

目的探讨局部切除+放射治疗高龄低位直肠癌患者的临床意义.方法对23例因高龄不宜或不愿行Mile's术的低位直肠癌患者,Duck's A1～B2期,肿瘤范围在1/3周径内,做局部切除+

期刊

新时期以来,文化保守主义思潮重新勃兴,小说领域的＂文化守成＂书写也日渐普遍。归纳来看,这些小说的主题指向主要有：坚持本土精神,回归传统文化;反思工具理性,张扬人文价值;批判

期刊

目的探讨老年冠心病经皮冠状动脉腔内血管成形术（PTCA）术后支架内再狭窄（ISR）患者血浆干扰素诱导蛋白（IP）-10水平表达及其相关危险因素.方法 90例老年冠心病患者均接受PTCA手术治

期刊