Web信息提取技术在企业竞争情报平台的应用研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:opentv2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从20世纪90年代以来,互联网技术飞速发展,业已成为经济、政治、科技、教育、文化和娱乐等各个方面的重要组成部分。作为全球化的信息载体,互联网上的信息也呈爆炸式增长。在信息化程度逐步提高的今天,为了使人们快速地获取信息,避免迷失在信息海洋中,我们需要准确地从千姿百态的Web页面提取出有用信息,Web信息提取技术应运而生。信息提取技术涉及到为从文本中选择出的信息创建一个结构化的表示形式。Web信息提取核心工具称为包装器,有研究也用包装器指代Web信息提取程序。人工式生成包装器不但需要高水平的人员完成,而且难以适应复杂的变化。因此,如何提高包装器生成的自动化程度成了Web信息提取的重要研究内容。本文对Web信息提取技术和HTML内容进行了分析和研究,提出了一种Web页面自顶向下的正文信息提取方法,并基于Java平台下的HTML Parser解析库实现了该方法。该方法针对的并不是特定的网页,即它不需要依赖特定的网页模板,而是依据各节点的特征以及它们的文字长度、文字链接率等数据信息。该方法把HTML节点建立成树型结构,在自顶向下的遍历过程中,根据确认的链接节点、统计出的数据信息和HTML结构特征,从根节点向下逐步搜索,进而定位最佳正文子树,并从最佳正文子树中提取出段落清晰的文本信息。经测试结果表明,本文方法与其它方法相比,具有较高的准确率。本文基于该提取方法并结合企业竞争情报平台的具体应用,设计并实现了一个通用新闻信息提取器。这个提取器除了能够提取新闻正文、新闻标题、发布日期和来源等新闻各要素的文本信息,还能保留新闻中的附件和超链接,并处理分页新闻,将多个页面上同一条新闻的正文内容合并起来。这个提取器改变了旧有的插件式管理服务,扩展了原有功能,大大降低了维护的工作量。在此基础上,本文还结合面向特定网站的新闻信息提取方法,提出了一种规则学习模式,当反复对特定网内容进行提取时,可以自动生成提取规则,该规则由XML Schema描述。当再次提取该网站内容时,就能根据规则进行信息提取,避免了重复性的信息统计,明显加快了新闻信息提取的速度。
其他文献
数据挖掘是从大量的、不完全的、有噪音的、随机的数据中获取潜在的、有用的信息和知识的过程。聚类分析是数据挖掘重要的组成部分,它是一种无监督的学习方法,不需要关于数据
基于图论的图像分割方法是近年来国际上图像分割领域的一个新的研究热点,其基本思想是将图看作一个带权图,其每个节点对应图像的一个像素或区域,连接每两个节点的边的权值表示该
目前世界正处在一个信息爆炸时代,网络资源以几何形式迅速增长。人们可以通过搜索引擎很容易从互联网上获取信息,但是由于传统的搜索引擎仅以关键词组合进行检索和其返回的结
在当今形势下,在各行各业,产生了大量的数据,用户关心的重点问题是如何从大量的数据中快速有效的找到自己想要的数据,也即用户对于数据搜索能力的要求越来越高。索引机制有效
复杂网络的挖掘研究拥有广泛的应用领域,例如生物网络、化学网络、Internet、合作网和社会网络等。挖掘动态网络模式已经引起了极大的关注,这是因为现实世界中大多数的复杂系统
随着集成电路技术的快速发展,人们对数据转换和信号处理过程中数/模(D/A),模/数(A/D)转换器的精度要求也越来越高。相对于其它类型的数模转换器,基于过采样和噪声整形技术的
在物理学中,水中气泡运动现象属于气液两相流现象。气液两相流在自然界和日常生活中到处存在,如早晨的浓雾、锅炉里的沸腾与水蒸气等等。气液两相流是指气体和液体两种物质混合
进化算法是一类模拟生物进化过程中自然选择和自然进化的群体启发式随机搜索算法,较好的通用性使其适用于复杂非线性和较少目标的优化问题。但是随着问题求解的各方面性能要
随着互联网与计算机技术应用范围的日益广泛,政府、企业以及个人对计算机的依赖程度越来越高。与此同时,计算机网络的安全问题也越来越严峻。目前,计算机网络安全技术主要包
随着软件产业的快速发展,软件系统的规模越来越大,软件系统也越来越复杂,因此软件开发难度也在加大。为了在软件开发过程中更好的分离关注点,人们先后提出了结构化以及面向对