基于DOM树与领域本体的Web抽取方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:zelda999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决异构DeepWeb结果页面中数据区域及数据记录的自动抽取问题,提出一种基于DOM树与领域本体的Web抽取方法。利用数据内容特征以及领域本体库标记DOM树的节点,按照结果页面展示规律定位数据区域,根据改进的简单树匹配算法,定位数据区域及数据记录。实验结果表明,该方法定位数据区域及数据记录的F-measure值比传统的抽取方法高2.93%~6.67%。
其他文献
1878年,意大利发生禽流感,这是最早的禽流感记录。1900年代早期,禽流感在意大利被首次确认。
语法复习宜建立在以语篇为基础的语境中,可采用听、说、读、写、译等多样活动来培养学生的观察、体验、探究和归纳能力。语法知识在实际语境中应灵活运用,用提高语法教学的趣
通过查阅大量国内外文献资料,整理归纳了魔芋葡甘聚糖对糖脂代谢影响的研究现状。魔芋葡甘聚糖是魔芋块茎中所含的储备性多糖,因其独特的分子特性使它具有一定的保健功能。魔
中国清洁产业权威媒体发行面广信息量大单月:工业与公共设施清洁双月:家居和个人清洁护理协会动态|会员在线|本刊特稿|综述可持续发展|新技术新产品|市场研究|技术圆桌应用与
从森林生态系统的空间结构、生产力和生物量、物种和营养结构以及服务功能等方面阐述了森林在陆地生态系统中的主体地位,并针对存在的问题提出了解决的对策,以期为森林生态系
行动研究式校长培训模式是针对专题理论学习式的局限性及行动研究自身的优势,借鉴行动研究这种研究方法而产生的一种校长培训模式。本文介绍了该模式的内涵、意义、价值取向、
目前的馆藏资源语义化方法存在一定的问题。本文引入信息计量学分析方法,结合语义网的相关理论和方法,构建了基于计量分析的馆藏资源语义化理论模型。通过对信息计量学和语义网
张元济的商务印书馆生涯中,最鲜明的底色就是维新。张元济的出版改革主张具有很强的前瞻性和时代性,但在商务内部推行不畅,他因之先后两次提出辞职。邀请胡适到商务印书馆任
目的探究并分析产前综合指导对于促进自然分娩的临床效果。方法选取近2年在我院分娩的孕妇200例,将其平均分为对照组和实验组两组,对照组给予常规护理,实验组给予产前综合指
创业投资是适应创业活动对外源性股权资本需求配置的投融资制度创新,在我国的主板、中小板和创业板中都活跃着创业投资机构的身影。作为特殊的金融中介,创业投资机构全方位的