基于DOM树的网页相似度研究与应用

被引量 : 0次 | 上传用户:milin1215
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web信息资源的爆炸式增长,如何从海量数据中筛选出人们想要的数据就成为了一个富有挑战性的课题。传统的网页信息提取工具大都基于文本信息的匹配,并不能对复杂的结构化网页信息进行准确地比较和取舍。通过挖掘Web网页中的结构特性,也就是DOM树结构,来衡量目标信息和样本信息之间的相似度,并确认所需信息,已成为一种准确迅速提取信息的有效方法。基于DOM树结构的网页相似度度量理论主要有基于节点统计特征,基于链路匹配,基于最少编辑距离,基于简单树匹配等多种度量方法。然而这些方法都或多或少的存在一些问题,节点统计不够系统,链路匹配比较分散,最少编辑距离缺乏层次性,简单树匹配对顺序要求严格,不适合DOM信息的匹配,而且速度慢。针对以上问题,本文提出了新的解析DOM算法,基于DOM树的网页相似性度量算法以及基于DOM相似性的网页信息提取算法。具体研究工作如下:(1)基于数据预提取的DOM树解析算法解析DOM树是计算网页相似性的基础,也是提取网页信息的前提。本文主要提出了基于部分数据预提取的顺序DOM树解析算法以及逆序DOM树解析算法,可以有效地提取大部分网页的DOM树结构。(2)基于DOM树的网页结构相似度度量方法网页的结构相似度,不仅可以衡量两个网页之间的相似性,而且能量化同一个网页内部不同位置信息之间的相似性,进而根据这种相似性提取目标信息。与传统方法不同,本文提出了两种相似度度量算法:基于子树最优自由匹配的递归算法和基于链路简单树匹配的递归算法。(3)基于DOM树相似度理论的网页正文提取网页正文信息在DOM树中具有一定的结构相似性。这种相似性为我们提取正文信息提供了一条思路。通过正文信息在网页中的某些特征确定部分正文,并通过结构相似性寻找其他正文,进而提取所有正文信息。本文以前面的两种相似度度量方法为基础对网页正文信息进行提取。
其他文献
农业作为国民经济发展的基础产业,农业发展的好与坏关系到我国人口的温饱问题能否解决,也直接影响到我国的工业化发展进程。伴随着改革开放步伐的不断加快,所涉及的领域也不
目的研究补肺健脾汤治疗哮喘缓解期肺脾气虚证患者的临床疗效。方法从本院2017年1月~2018年10月接受的哮喘缓解期肺脾气虚证患者患者中,抽取64名,随机将其分为对照组与观察组
重油催化裂化增产丙烯是催化裂化技术发展的一大热点,添加ZSM-5助剂是提高催化裂化工艺丙烯收率最有效和最简便的方法。本文以纳米ZSM-5沸石为母体,采用XRD、氮物理吸附、NH3
土地,万物之源,人类生存之根本。在经济全球化发展的今天,人类的科学技术创造了无数奇迹,生活方式已经发生了翻天覆地的变化,可是不管社会如何进步,如何创新,踩在脚下的这片
吉林省榆树市高标准基本农田稍加整治项目位于榆树市境内,通过项目建设,可以达到合理布局地方土地利用结构,提高项目区耕地质量,改善当地农业生产条件,促进地方经济社会发展
我国是一个农业大国,农业生产一直占据着我国产业结构的较大比重,粮食安全涉及国计民生,影响社会安定。灌溉作为农业的命脉,对于农业生产关系重大,这一点在水资源较为紧张的
山东省沿海城市有七个,是我国著名的海洋渔业大省。海洋渔业产业的发展,不仅能为山东省居民提供充足的海洋渔业产品,满足居民日益提高的生活需求,而且可以带动山东省国民经济
生态用地的定性、定量和定位研究对区域生态保护和管理起着关键作用。由于当前“生态用地”并未列入土地利用现状地类,也没有专门的规划体系,在生态保护实施过程中,常常无规
波浪爬高和越浪量是衡量大堤防浪有效性和堤后安全性的一个重要指标。然而波浪从外海传到海岸附近水域时,波浪与海工建筑物相互作用是一个复杂的水动力过程。爬高和越浪受海
市场的力量渗入并逐渐蔓延于学前教育事业,打破了政府供给学前教育服务的一元格局。价格是市场经济中的核心问题,特别是在当前公办学前教育资源短缺的情况下,民办幼儿园的收