基于树结构的Web信息抽取

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:tanya1005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息提取就是从大量的数据中检索出有用的信息,但一般的Web信息提取技术都是基于对Web上HTML文档的分析。文中提出了一种先将HTML转化为XML形式,再提取信息的方法。Ⅺ咀。是用于描述在Intemet网上用于数据交换的数据文档的格式的一种语言标准,它将结构、内容和表现分离。数据可被XML唯一标识,从而有利于用户对数据的组织和检索。这种方法能够达到较高的正确率,同时随着文档的增大,方法也能够保证线性的时间复杂度。
其他文献
上海自贸试验区临港新片区要秉承以往制度创新的优势,努力为制度创新转向制度优势创造条件,还要尝试将制度优势转化为国际公认的制度供给品,实现特殊经济功能区功能定位、管
新课改是新一轮基础教育课程改革的简称,新课改对物理实验教学的要求也逐渐严格,由于农村教育相对落后的现状导致新课改要求的物理实验教学在我国大多地区无法正常推进。本文
目的探讨急性出血性脑血管疾病的临床治疗。方法 57例急性出血性脑血管疾病患者随机分为两组,对照组30例采用常规治疗法,观察组27例基于对照组基础上加用依达拉奉治疗,对比两
上海未来推进国际航运中心建设的总体方向,不能再仅仅依靠集装箱吞吐量的增长,而应着力强化国际航运服务的国际化、高端化,实现从注重培育国际货物运输能力向注重提升国际航
目的探讨冠心病与颈动脉粥样硬化及血管内皮舒张功能的关系,为临床治疗提供参考。方法随机选择2009年1月至2012年1月在我院治疗的99例冠心病患者做为观察组,选择同期在我院进行
掌握运动解剖学知识是学习体育类相关课程及进行健身指导的基础和前提。但是,由于课程内容丰富,且晦涩难懂,传统的教学手段枯燥单一,学生学习难度大,效果不甚理想。本文试图
目的观察稽留流产的发病因素,探讨合理干预方法。方法对300例稽留流产者及280例正常孕妇回顾性分析,相关因素包括年龄、孕期辐射暴露、动物暴露、孕期用药史、吸烟、饮酒等。结
目的探讨护理干预对骨科患者疼痛的影响效果。方法 98例骨科患者随机分为观察组和对照组,每组49例,对照组采用常规护理,观察组在常规护理的基础上进行有效护理干预,观察两组
总部经济服务于城市战略是构建上海总部生态圈的基本前提。总部经济发展方向和结构的调整不适用传统意义上的减量或疏解方式,而是需要在增量过程中实现渐进调整。为此需要进
目的探讨舒利迭联合无创正压通气治疗老年慢性阻塞性肺疾病(COPD)呼吸衰竭临床效果。方法 84例老年慢性阻塞性肺疾病呼吸衰竭患者,随机分为实验组44例和对照组40例,对照组仅采