一种自适应的Web信息抽取规则自动生成方法

来源 :广西师范大学学报:自然科学版 | 被引量 : 0次 | 上传用户:daniel86999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种自适应的Web信息抽取规则自动生成方法,通过多样本页面对比模式和单样本重复模式提取Web上复合类型的数据并进行迭代修正,基于语义分析的规则方法进行动态抽取。实验结果表明,该方法具有较好的精确性和鲁棒性。
其他文献
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为
目的探讨局部切除+放射治疗高龄低位直肠癌患者的临床意义.方法对23例因高龄不宜或不愿行Mile's术的低位直肠癌患者,Duck's A1~B2期,肿瘤范围在1/3周径内,做局部切除+
新时期以来,文化保守主义思潮重新勃兴,小说领域的"文化守成"书写也日渐普遍。归纳来看,这些小说的主题指向主要有:坚持本土精神,回归传统文化;反思工具理性,张扬人文价值;批判
目的 探讨老年冠心病经皮冠状动脉腔内血管成形术(PTCA)术后支架内再狭窄(ISR)患者血浆干扰素诱导蛋白(IP)-10水平表达及其相关危险因素.方法 90例老年冠心病患者均接受PTCA手术治