论文部分内容阅读
针对各类基础数据的统计分析系统为管理者制定决策、挖掘用户喜好、数据整合提供巨大帮助。随着基础数据的增多和统计逻辑的复杂化,统计系统逐渐向分布式转变。在分布式统计系统中,如何结合任务特点和系统特点进行任务调度,成为解决分布式统计系统任务调度的关键。目前分布式系统任务调度,主要包括商业系统中的FIFO调度、公平调度和能力调度,还有科学研究中的Min-min调度、PSO调度、蚁群算法、模糊逻辑等。这些方法较为简单,无法适应复杂的调度环境,且不能结合系统及任务特点,导致调度效率不高。本文结合实际项目中遇到的问题,针对分布式专利业务统计分析管理系统的任务特点及资源需求,分别对专利导入校验任务的特点及计算节点性能特点进行描述。构建统计系统任务调度的形式化描述,并将其转化为一个多目标优化问题,设计适用于专利数据导入校验系统的任务调度遗传算法。结合系统特点及用户需求,以快速响应用户请求与保证系统负载均衡作为调度目标,保证结果有效性的同时改进杂交算子找到更优解。具体工作如下:首先,详细分析分布式专利业务统计分析管理系统的业务流程、任务特点和资源需求,对统计系统任务调度目标、任务调度过程、任务特点及计算节点分别进行形式化描述,为算法各个相关参数的设计提供基础。然后,提出适用于专利业务统计分析管理系统任务调度的遗传算法,解决系统响应时间较长且负载不均衡问题。详细介绍了资源—任务种群编码策略,降低染色体关联性的种群初始化策略,结合系统任务完成时间和负载均衡构建的参数可控适应函数,并保留进化过程中的最好个体作为最优解策略。在算法改进部分,提出带阈值的自适应杂交概率函数,前期保证促进种群进化,后期降低进化概率从而保留好的结果。最后搭建实验平台,模拟任务和计算节点,实现适用于统计系统任务调度的遗传算法。实验验证算法的有效性,同时对比实验证明算法能找到更优的解,并进行杂交概率参数、变异概率参数及最大变异步长的参数优化。