论文部分内容阅读
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接、email和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理。Web信息提取是指从Web文档中自动提取感兴趣信息的过程。它主要用在元搜索、信息代理等场合。本文首先介绍了信息提取技术及其产生背景和发展历史,分析了信息提取系统体系结构和关键技术。对Web信息提取的途径、主要学习算法、评价标准等进行了相关阐述。其次,介绍了Web页面的组成、HTML Parser的原理和Java正则表达式相关知识。还提出基于主题的Web信息提取系统模型,主要是指选择性地搜寻那些与预先定义好的主题集相关的页面进行提取的行为。论文中给出了该提取系统的框架模型,分析了系统中各功能模块的实现原理,并对主题信息的提取进行了详细阐述。最后,基于HTML Parser包和正则表达式,以提取网站内部电子邮件信息为例,提出了Web信息提取系统设计方案。阐述了电子邮件信息提取的工作原理和关键技术,给出了电子邮件信息提取算法,并详细介绍了系统的提取URL、电子邮件和存储模块,提取结果保存于数据库中,供机器检索利用。