一种批量抽取动态Web信息系统

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:gaozheng929292
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对从Web页面获取信息的广泛需求,分析了从中提取信息的关键技术如URL地址、HTML页面和HtmlParse解析库;以从Google Map中获取企业黄页信息为例,根据从中自动提取数据的技术和步骤,设计和实现了该系统原型,并指出的相关问题及其解决办法。
其他文献
多核CPU在当前已成为PC机的常规配置,为了充分发挥PC机的性能,以提高应用软件的运行速度,本文针对如何在多核CPU上实现并行计算进行了研究,将其应用到薄层水流流速参数的虚拟正态
每一种聚类算法都有其适合处理的特定分布的数据集.为了给未知分布数据集挑选合适的聚类算法,提出了一种挑选聚类算法的网格连通图方法SCGG-SCGG通过对数据潜在类结构的分析,若
计算机软件在线注册是实现软件版权保护的主要技术方案。WCF技术实现了跨平台的通信,为不同应用平台下的应用软件提供了统一的在线注册通信。同时,.Net的加密技术为整个注册
为了解决手持移动设备之间的实时视频传输,提出了基于Android系统的轻型流媒体视频传输系统的设计方案.利用流媒体传输控制技术,通过移植优化live555项目,实现了基于Android系统
Ch 是一种C/C++脚本语言,用Ch 脚本语言对通信设备进行测试具备简单,快速,可直接嵌入等优点。RobotFramework 是基于Python 语言开发的开源的自动化测试系统,它具有简单明了的上下
针对当前多数恒压供水系统水泵运行状态单一、不能自动完成多台水泵循环工作,影响水泵使用寿命且使其它水泵长期停歇造成资源浪费的问题。提出了采用支持图形化逻辑电路编程
OSGi是基于组件的面向服务架构,其服务组件可在运行时远程地被安装、卸载和更新,但其服务实现的各项属性必须安装后才可知,这对于有时限要求的实时系统来说,是一个挑战。在执
对电磁式计轴传感器的核心理论——电磁原理进行了麦克斯韦方程组解析。针对不同的电磁式计轴传感器做出分析和对比,总结了计轴技术的发展趋势。
集群技术为Web服务带来了新的解决方案,其核心思想是负载均衡策略。在分析已有方法的基础上,提出了一种基于内容分类的集群负载均衡算法。该算法通过对用户请求分类后均匀地