基于DOM树的可适应性Web信息抽取

来源 :计算机科学 | 被引量 : 0次 | 上传用户:vancentfcf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web信息抽取通常采用的是一种归纳学习方法,从给定的训练样本网页中学习到抽取规则,这种方法虽然能够准确地抽取出信息,但是当网站的模版发生改变后,必须重新获得抽取规则,因而这种抽取器的维护成本比较高,可适应性差。提出一种新的可适应性Web信息抽取方法,该方法首先通过聚类方法获取商品在网页中频繁出现的关键词组,然后利用网页的DOM树结构来确定包含这些关键词的信息块,从而实现Web信息的自动抽取。对大量商业网站进行信息抽取的实验表明,该算法不仅能有效抽取出商品信息,而且是一种与站点结构无关的可适应性信息抽取方法。
其他文献
目的总结针灸治疗小儿抽动症方法及疗效。方法对近年来针灸治疗小儿抽动症的文献进行综述。结果针灸治疗小儿抽动症副作用小,见效快,方法多样。结论针灸治疗小儿抽动症应进一
本文主要从读者反应的角度对《木兰诗》的阅读教学现状进行了还原和分析,指出阅读新理念引导下的文学阅读教学在关于“对话”本质内涵的理解与把握以及学生的潜主体性的内在
<正> 文献综述是中医学术论文的一种撰写格式。作者将自己在某一时间内收集的文献资料,经过阅读,摘录某个问题的重点,结合自己科研课题的结果,进行分析、归类、整理。一方面
数学美的描述固然重要,但更重要的是如何在课堂上展现数学美,使学生能够欣赏数学的美学价值.数学教学中的美学价值主要体现在以下4个层面:美观、美好、美妙、完美.
通过改进Logistic混沌映射,提出了En_Logistic映射,将该映射应用到不透明谓词簇的构造过程中,形成混沌不透明谓词。将混沌不透明谓词应用于代码混淆过程。分别给出在程序分支
石灰石—石膏湿法烟气脱硫技术(Flue Gas Desulfurization,缩写FGD)是当前国内外最重要、应用范围最广的燃煤烟气脱硫技术,它主要利用石灰石浆液在吸收塔内吸收烟气中的SO2,
罗非鱼是我国当前最重要的淡水养殖品种之一。目前淡水鱼类主要是鲜销,加工品较少,由于贮藏条件的限制,导致水产品腐败率较高。由于水产干制品不需冷藏,水分含量低,使运输、
在大力提倡有效教学的今天,小学数学课堂有效教学的真正出路在于抓好数学的"基础知识、基本技能、基本思想和基本活动经验"的"四基"工作。这是引领学生走向数学灿烂殿堂的唯
姓名作为一种文化载体,承载着丰富的文化内涵,隐含着一个民族的语言、历史、地理、宗教和阶级状况的信息。采用对比法对英汉姓名的构成、来源以及命名方式的差异进行比较,并
近年来,情景教学在小学语文课堂教学中得到了较好的应用,情景教学在提升教学质量,激发学生兴趣方面也有着独特的优势。教师可从以下方面入手:结合学生实际情况,制定情景教学方