基于网页结构相似度的Web信息抽取

来源 :情报学报 | 被引量 : 0次 | 上传用户:sam008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文重点探讨基于编辑距离的网页相似度算法在Web抽取系统中的应用与实现。通过结合基于URL及编辑距离的网页结构相似度的计算方法,抽取系统在抽取过程中能够检测网页结构的变化,从而主动做出判断,选择适应规则进行抽取或通过主动学习自动扩展规则库。结构相似度计算赋予系统感知网页结构变化的能力,系统通过主动自我更新与调整,能更好地适应面向实际应用的异构资源的获取。算法的可行性和效率在原型系统中得以验证。
其他文献
江、浙、沪经济上具有天然纽带和融合趋势,如何实现协调发展,促进共同繁荣。二省一市必须制定正确的战略与目标。为此,本刊记者走访了长期从事长三角区域经济研究的江苏省社
汉语科技词系统是中国科学技术信息研究所提出的面向中文为主的科技信息资源管理及深层次知识服务的知识组织系统。本文介绍了汉语科技词系统的知识架构、建设流程以及在建设
多机器翻译系统融合技术能够对不同机器翻译系统的输出结果有效地进行融合产生更好的翻译性能,因此该技术成为机器翻译研究领域的一个热点问题。常用的多机器翻译系统融合技术
本文以ISI Web of Science引文数据库中收录的国外信息可视化领域论文数据为研究样本,从论文发表量、学科领域分布、国家(或地区)分布、国际科研合作、知识基础与核心关键词进行
文本分类是信息检索与数据挖掘领域的研究热点,近年来得到了广泛的关注和快速的发展。根据免疫否定选择原理,设计了基于掩码分段匹配的否定选择分类器,用于实现文本匹配选择分类