树编辑距离在Web信息抽取中的应用与实现

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户:xdhjyinghua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。 This paper introduces the concept of edit distance, discusses how to construct tag tree, and uses tag tree matching algorithm to quantify web page structure similarity. The algorithm is applied to Web information extraction, through the URL similarity algorithm for coarse clustering of sample web pages, further using the tree similarity matching algorithm to achieve clustering, to obtain template web pages. Based on the template webpage, the structure similarity algorithm is introduced again and the webpage is extracted automatically by combining the extraction rules based on the template webpage. Experiments show that the introduction of the algorithm can effectively improve the packaging accuracy and semi-automatic extraction ability.
其他文献
《海南政报》是海南省人民政府机关刊物,是海南省人民政府传达政令、指导工作的重要渠道。《中华人民共和国立法法》明确规定:《国务院公报》和地方政府的《公报》或《政报
《蔷薇的泡沫》作者:郭敬明饶雪漫翡雪夏沫沫定价是:25.00元郭敬明的悲伤,饶雪漫的疼痛,翡雪、夏沫沫的哭泣,在这本书里体现得淋漓尽致。该书被媒体推荐为“哭泣天使”的完
大数据产业是指建立在互联网、物联网等渠道的大量数据资源基础上的数据存储、价值提炼、智能处理的信息服务业,近年来,该产业已成为新的技术制高点和经济增长的新动力,深刻
工作过程系统化的课程开发是高职课程改革的研究重点。基于这种方法,本文在计算机网络技术就业市场调研的基础上,确定专业人才培养所面向的职业岗位群及其典型的工作任务,进
2016年3月16日对于张双来说可是个大日子。这个20岁的电子商务专业学生一直守到午夜,她想第一个在零点到来时向自己的偶像余潇潇发出生日祝福,这一天是余潇潇的26岁生日。  张双对于余潇潇可谓是一片深情,可在余潇潇眼里,张双不过是80多万粉丝中的沧海一粟,他们的忠诚和深情都是可以被量化并被赋予商业价值的。余潇潇在社交媒体上培养了一批追随者,其目的不过就是在网上卖衣服。在这个过程中,她被赋予了一个新
本研究通过日记卡调查对受众互联网使用的时空情境进行全面、深入、完整的考察,从中发现,互联网使用对住所这一空间的依赖度很高。白天的互联网使用情境特征受人们的工作(学
国内图书批发市场形成于上世纪80年代末,在此之前的图书批发都还只是松散型的各自为阵格局。记得当时我在一家杂志社做采编员,发行主要靠发行部完成。那时书刊较少,零售也十
随着社会经济的快速发展与教育改革的不断深入,我国的基础教育获得了突飞猛进的发展。我国的农村语文教育事业在新的背景下也有了新的活力,并取得了一定的发展。但是由于各种
随着教育的发展与改革,在对职业中专的素质教育中,信息技术教育起着越来越重要的作用,但是在教育的过程中仍然存在着许多的问题,需要针对不同的问题采取相应的措施解决,从而
一堂成功的语文课,不仅取决于教师丰富的知识积累和精心的课前准备,还在于教师上课时丰富多彩的语言美。高尔基曾说:“作为一种感人的力量,语言的真正美,产生于言辞的准确、