论文部分内容阅读
在市场环境瞬息万变的信息时代,能否快速应对环境变化、尽早采取措施是企业经营成败的关键。因此,建立针对互联网的企业环境扫描系统,监测并收集与企业利益相关的Web数据,已成为很多企业信息搜集亟待解决的重大问题。企业互联网环境扫描系统的主要作用可概述为:在系统可用物理资源的使用范围内,访问企业用户指定的网站,学习并监测网站的更新频率,以接近但不低于此的频率重复爬行网站,采集更新信息,使得企业不仅能够掌握最新的商业形势,还可以通过分析连续变化的数据,挖掘其背后蕴藏的隐含信息。然而,互联网信息的飞速增长使得系统信息采集的广度、深度和速度越来越不能满足实际应用的需要。对此,本文提出了多层次的分布式系统结构,通过增强系统的并行能力来提升系统性能。文中阐述了中心控制Agent在组间层次上、调度Agent在组内层次上基于优先级的任务调度策略;同时,为满足系统重复采集更新信息的特殊需要,借鉴经典的Min-min启发式调度算法,设计了循环任务最早完成时间调度算法,以便调度Agent能够适时的将子任务分配给能够最早完成它的任务Agent。为了在构建实际系统之前验证系统结构和调度算法的有效性,本文采用了图形化的数学工具—Petri网来构建系统模型,并对模型进行了测试、正确性检验和性能评价。重点实现了使用有色Petri网建模工具CPN Tools建立基于赋时层次有色Petri网的调度系统模型:利用CPN Tools对层次化网络的支持功能建立了三层次的系统结构模型;通过颜色集的定义和CPN ML的函数声明,完成了采集任务的分解,并实现了基于优先级的调度策略和循环任务最早完成时间的启发式调度算法。通过与对比实验模型的比较,论证了前文理论研究结果的正确性和方案的可行性,为后续的研究工作提供了参考思路。