论文部分内容阅读
随着互联网上信息的迅猛增长,互联网信息己成为最为重要的知识库,人们每天在网络上提供了成千上万的信息,这些由用户创造的信息是十分具有价值的,人们也越来越迫切的希望通过各种方式来获取这些信息。因此使用网页信息抽取技术,自动地从网页中抽取用户感兴趣的信息是智能信息处理的一个重要的工作。这些信息抽取系统从互联网上抽取的信息不仅可以直接提供给用户,还可以作为构建智能查询系统和数据挖掘系统的基础,有着广阔的应用前景。目前,网页信息抽取技术的研究已成为国际上信息检索领域的研究热点之。本文首先研究了网页信息抽取的相关工作和各项关键技术,在数据表示方面,采用了Dom-Tree来将页面代码进行重新展示。以Dom-Tree的节点作为样本,通过视觉信息和人类设计感知为基础设计特征,来描述样本所代表的结构信息。然后介绍了网页信息抽取技术与相关技术的区别以及网页信息抽取中常见的分类方法,模板依赖的方法和模板独立的方法,通过介绍模板独立方法与模板依赖方法的特点,总结出两个方法的优缺点和适用范围。其次在具体的网页信息抽取任务中,我们研究了新闻页面抽取以及论坛类页面抽取的意义和目标。我们首先设计了一个解析器用以完成网页语料的解析、过滤以及标注等任务。然后根据模板独立的网贞信息抽取的特点建立了一个模板独立的网页信息抽取的框架,最后从网页语料的特点入手进行分析,分别对新闻语料和论文类语料建立模型,设计过滤模块、训练分类器、算法设计,并最终完成一个包装器的抽取过程。在中英文语料上的实验结果表明,在新闻与论文类页面的抽取精度F值分别可以达到96.7%和89.1%。通过对比实验表明,本文提出的抽取方法比当前主流的方法都更加高效,绝对结果也表明已经基本可以满足实用要求。