树编辑距离在Web信息抽取中的应用与实现

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户：xdhjyinghua

【摘要】

：

引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相

【作者】

：

聂卉黄贵鹏

【机构】

：

中山大学资讯管理系,

【出处】

：

现代图书情报技术

【发表日期】

：

2010年05期

【关键词】

：

编辑距离 Web信息抽取结构相似度网页信息抽取规则 Web聚类匹配算法自动抽取动态页面抽取算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。 This paper introduces the concept of edit distance, discusses how to construct tag tree, and uses tag tree matching algorithm to quantify web page structure similarity. The algorithm is applied to Web information extraction, through the URL similarity algorithm for coarse clustering of sample web pages, further using the tree similarity matching algorithm to achieve clustering, to obtain template web pages. Based on the template webpage, the structure similarity algorithm is introduced again and the webpage is extracted automatically by combining the extraction rules based on the template webpage. Experiments show that the introduction of the algorithm can effectively improve the packaging accuracy and semi-automatic extraction ability.

其他文献

《海南政报》简介

《海南政报》是海南省人民政府机关刊物,是海南省人民政府传达政令、指导工作的重要渠道。《中华人民共和国立法法》明确规定:《国务院公报》和地方政府的《公报》或《政报

期刊

标准文本地方规章地方性法规人事任免重点项目行政法规国务院办公厅《公报》工作研究单位办公室

图书

《蔷薇的泡沫》作者:郭敬明饶雪漫翡雪夏沫沫定价是:25.00元郭敬明的悲伤,饶雪漫的疼痛,翡雪、夏沫沫的哭泣,在这本书里体现得淋漓尽致。该书被媒体推荐为“哭泣天使”的完

期刊

饶雪漫郭敬明人物形象塑造多丽丝·莱辛浙江文艺出版社元韶青年文学爱情故事青春气息戏剧色彩

我国大数据产业政策需从四方面优化

大数据产业是指建立在互联网、物联网等渠道的大量数据资源基础上的数据存储、价值提炼、智能处理的信息服务业,近年来,该产业已成为新的技术制高点和经济增长的新动力,深刻

期刊

信息服务业产业政策产业生态杨学山技术制高点物联网产业发展环境经济增长产业发展政策网络攻击

基于工作过程系统化的计算机网络技术专业课程体系开发实践

工作过程系统化的课程开发是高职课程改革的研究重点。基于这种方法,本文在计算机网络技术就业市场调研的基础上,确定专业人才培养所面向的职业岗位群及其典型的工作任务,进

期刊

网络技术专业工作过程系统课程体系开发学习领域网络组建与管理网络工程行动领域高职课程职业岗位群网络安全管理

中国网红们的“生意经”

2016年3月16日对于张双来说可是个大日子。这个20岁的电子商务专业学生一直守到午夜，她想第一个在零点到来时向自己的偶像余潇潇发出生日祝福，这一天是余潇潇的26岁生日。　　张双对于余潇潇可谓是一片深情，可在余潇潇眼里，张双不过是80多万粉丝中的沧海一粟，他们的忠诚和深情都是可以被量化并被赋予商业价值的。余潇潇在社交媒体上培养了一批追随者，其目的不过就是在网上卖衣服。在这个过程中，她被赋予了一个新

期刊

社交媒体这一天双来淘宝网络红人服装网供应链服装模特我爱爱马仕

全媒体格局下受众互联网使用时空情境量化研究——基于天津市民全媒介使用的日记卡调查

本研究通过日记卡调查对受众互联网使用的时空情境进行全面、深入、完整的考察,从中发现,互联网使用对住所这一空间的依赖度很高。白天的互联网使用情境特征受人们的工作(学

期刊

日记卡天津市民接触率网络接触媒体格局显著度媒体接触媒介接触学习活动达率

民营书商说书市

国内图书批发市场形成于上世纪80年代末,在此之前的图书批发都还只是松散型的各自为阵格局。记得当时我在一家杂志社做采编员,发行主要靠发行部完成。那时书刊较少,零售也十

期刊

出版社发行部图书批发合作出版中国出版业报刊发行呼家楼春秋战国时代出版发行业图书行业各自为阵

浅谈农村初中语文教学现状及改革

随着社会经济的快速发展与教育改革的不断深入,我国的基础教育获得了突飞猛进的发展。我国的农村语文教育事业在新的背景下也有了新的活力,并取得了一定的发展。但是由于各种

期刊

初中语文教学教育改革教育事业初中教育教育队伍教学常规传统应试教育教育理念道德修养社会经济

中职信息技术教育问题分析与应对策略

随着教育的发展与改革,在对职业中专的素质教育中,信息技术教育起着越来越重要的作用,但是在教育的过程中仍然存在着许多的问题,需要针对不同的问题采取相应的措施解决,从而

期刊

技术教育信息技术教育问题职业中专教学效果教师教学质量思想观念中所考试科目教学知识

论语文课堂教学的语言美

一堂成功的语文课,不仅取决于教师丰富的知识积累和精心的课前准备,还在于教师上课时丰富多彩的语言美。高尔基曾说:“作为一种感人的力量,语言的真正美,产生于言辞的准确、

期刊

语言美课堂教学张志公先生教学效果教学重点旋律美精神饱满闭口音最后一课文质兼美

树编辑距离在Web信息抽取中的应用与实现

与本文相关的学术论文