基于HTML Parser的Web信息提取技术

被引量 : 22次 | 上传用户:laoniuge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接、email和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理。Web信息提取是指从Web文档中自动提取感兴趣信息的过程。它主要用在元搜索、信息代理等场合。本文首先介绍了信息提取技术及其产生背景和发展历史,分析了信息提取系统体系结构和关键技术。对Web信息提取的途径、主要学习算法、评价标准等进行了相关阐述。其次,介绍了Web页面的组成、HTML Parser的原理和Java正则表达式相关知识。还提出基于主题的Web信息提取系统模型,主要是指选择性地搜寻那些与预先定义好的主题集相关的页面进行提取的行为。论文中给出了该提取系统的框架模型,分析了系统中各功能模块的实现原理,并对主题信息的提取进行了详细阐述。最后,基于HTML Parser包和正则表达式,以提取网站内部电子邮件信息为例,提出了Web信息提取系统设计方案。阐述了电子邮件信息提取的工作原理和关键技术,给出了电子邮件信息提取算法,并详细介绍了系统的提取URL、电子邮件和存储模块,提取结果保存于数据库中,供机器检索利用。
其他文献
目的:建立HPLC-DAD法快速筛查检验降糖类保健食品及中成药中添加的12种化学药品,为保健食品和中成药中添加的化学降糖药提供检测方法。方法:Agilent Extend-C18色谱柱(4.6 mm
<正> 一汉字不是“语素文字”近几年来,有些人认为汉字是记写汉语语素的;有的人甚至于称汉字为“语素文字(logogram)”,说什么“汉字是语素,本身有意义”。①这种说法到底对
税收法定主义是现代法治的源泉之一,是规范和限制国家权力以保障公民财产权利的现代民主宪政要求。回顾英国、美国的历史经验:“国民的同意”和“无代议士则不纳税”,可清晰地看
研究目的通过文献研究、临床回顾性及前瞻性病例调查研究,总结分析广州地区支气管扩张的常见证型及证候分布特点,探索建立支气管扩张的中医证候学研究示范。研究方法本研究分为
自从20世纪70年代以来,由于宏观环境的变化,使得国际、国内金融市场发生了深刻的变革,金融市场的波动日益加剧,金融风险明显增大。度量金融波动、刻画和分析金融波动的特征,对于认
政策执行是把政策内容付诸实践的过程,满意的政策还需要通过组织及其成员的努力才能实现政策的意图,本文试图从组织的角度讨论政策执行过程中产生的偏差以及治理措施。在政策执
目的观察右美托咪定用于新生儿食管闭锁麻醉的安全性与有效性。方法新生儿食管闭锁手术患儿30例,随机分为应用右美托咪定组(M组)和应用瑞芬太尼组(N组),各15例。两组在麻醉诱
探讨了原油储罐突发性燃烧引发的环境风险。结合项目特点确定最大可信事故,研究了燃烧污染物进入环境后的相关特征。根据相关文献,重点探究事故储罐原油燃烧速度、污染物排放