论文部分内容阅读
自从20世纪90年代以来,互联网技术飞速发展,业已成为经济、政治、科技、教育、文化和娱乐等各个方面的重要组成部分。作为全球化的信息载体,互联网上的信息也呈爆炸式增长。在信息化程度逐步提高的今天,为了使人们快速地获取信息,避免迷失在信息海洋中,我们需要准确地从千姿百态的Web页面提取出有用信息,Web信息提取技术应运而生。信息提取技术涉及到为从文本中选择出的信息创建一个结构化的表示形式。Web信息提取核心工具称为包装器,有研究也用包装器指代Web信息提取程序。人工式生成包装器不但需要高水平的人员完成,而且难以适应复杂的变化。因此,如何提高包装器生成的自动化程度成了Web信息提取的重要研究内容。本文对Web信息提取技术和HTML内容进行了分析和研究,提出了一种Web页面自顶向下的正文信息提取方法,并基于Java平台下的HTML Parser解析库实现了该方法。该方法针对的并不是特定的网页,即它不需要依赖特定的网页模板,而是依据各节点的特征以及它们的文字长度、文字链接率等数据信息。该方法把HTML节点建立成树型结构,在自顶向下的遍历过程中,根据确认的链接节点、统计出的数据信息和HTML结构特征,从根节点向下逐步搜索,进而定位最佳正文子树,并从最佳正文子树中提取出段落清晰的文本信息。经测试结果表明,本文方法与其它方法相比,具有较高的准确率。本文基于该提取方法并结合企业竞争情报平台的具体应用,设计并实现了一个通用新闻信息提取器。这个提取器除了能够提取新闻正文、新闻标题、发布日期和来源等新闻各要素的文本信息,还能保留新闻中的附件和超链接,并处理分页新闻,将多个页面上同一条新闻的正文内容合并起来。这个提取器改变了旧有的插件式管理服务,扩展了原有功能,大大降低了维护的工作量。在此基础上,本文还结合面向特定网站的新闻信息提取方法,提出了一种规则学习模式,当反复对特定网内容进行提取时,可以自动生成提取规则,该规则由XML Schema描述。当再次提取该网站内容时,就能根据规则进行信息提取,避免了重复性的信息统计,明显加快了新闻信息提取的速度。