基于网页结构相似度的Web信息抽取

来源 :情报学报 | 被引量 : 0次 | 上传用户：sam008

【摘要】

：

本文重点探讨基于编辑距离的网页相似度算法在Web抽取系统中的应用与实现。通过结合基于URL及编辑距离的网页结构相似度的计算方法，抽取系统在抽取过程中能够检测网页结构的变

【作者】

：

聂卉

【机构】

：

中山大学资讯管理系

【出处】

：

情报学报

【发表日期】

：

2011年3期

【关键词】

：

WEB信息抽取结构相似度编辑距离 Web information extraction structural similarity tree edit d

【基金项目】

：

本文系教育部人文社会科学研究项目研究成果（项目批准号08JC870013）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文重点探讨基于编辑距离的网页相似度算法在Web抽取系统中的应用与实现。通过结合基于URL及编辑距离的网页结构相似度的计算方法，抽取系统在抽取过程中能够检测网页结构的变化，从而主动做出判断，选择适应规则进行抽取或通过主动学习自动扩展规则库。结构相似度计算赋予系统感知网页结构变化的能力，系统通过主动自我更新与调整，能更好地适应面向实际应用的异构资源的获取。算法的可行性和效率在原型系统中得以验证。

其他文献

共创品牌协同发展——访江苏省社科院副院长张颢瀚

江、浙、沪经济上具有天然纽带和融合趋势,如何实现协调发展,促进共同繁荣。二省一市必须制定正确的战略与目标。为此,本刊记者走访了长期从事长三角区域经济研究的江苏省社

期刊

长江三角洲经济一体化国际区域品牌开放经济重心带城市化

汉语科技词系统建设与应用进展

汉语科技词系统是中国科学技术信息研究所提出的面向中文为主的科技信息资源管理及深层次知识服务的知识组织系统。本文介绍了汉语科技词系统的知识架构、建设流程以及在建设

期刊

科技词系统知识组织系统新能源汽车领域建设与应用scientific ＆ technical vocabulary system knowledge or

基于词与短语的多机器翻译系统融合方法研究

多机器翻译系统融合技术能够对不同机器翻译系统的输出结果有效地进行融合产生更好的翻译性能，因此该技术成为机器翻译研究领域的一个热点问题。常用的多机器翻译系统融合技术

期刊

机器翻译系统融合混淆网络machine translation system combination confusion network

基于知识图谱的国外信息可视化研究演进、热点与前沿分析

本文以ISI Web of Science引文数据库中收录的国外信息可视化领域论文数据为研究样本，从论文发表量、学科领域分布、国家（或地区）分布、国际科研合作、知识基础与核心关键词进行

期刊

信息可视化知识图谱研究热点研究前沿information visualization mapping knowledge domains resea

基于掩码匹配的免疫否定选择文本分类方法

文本分类是信息检索与数据挖掘领域的研究热点，近年来得到了广泛的关注和快速的发展。根据免疫否定选择原理，设计了基于掩码分段匹配的否定选择分类器，用于实现文本匹配选择分类

期刊

文本分类否定选择分类器掩码data classification negative selection classifier mask

基于网页结构相似度的Web信息抽取

其他学术论文