论文部分内容阅读
随着数据中心所存储的数据规模和所部署的服务器集群规模日渐扩大,部署的存储设备数量也随之增长,存储设备故障频发。为应对存储设备故障,提高存储系统的可靠性,数据中心中常应用多副本和纠删码的数据冗余策略进行容错,应用存储设备故障预测技术进行故障预先处理。一方面,如何根据多副本和纠删码策略的特点部署数据冗余策略,在保障高可靠性的前提下,做到性能最佳、存储利用率最高,是数据中心提供高可靠高性能的数据服务所需解决的重要问题;另一方面,数据中心中拥有大量既有相似又有较大差异的磁盘设备,如何为大量异构的磁盘设备构建高准确度的故障预测模型,是保障存储系统高可靠性所面临的重要问题;再一方面,模型的可解释性降低容易导致模型受偏差和过拟合影响,如何为磁盘设备构建高准确度高可解释性的故障预测模型,是推动磁盘故障预测实用化所需解决的重要问题。
面向数据中心从存储系统的可靠性角度出发,提出非顺序条带的编码策略,应用于异构磁盘设备的故障预测方法,优化磁盘故障预测模型可解释性的解释方法,为提高存储系统的可靠性提供理论和方法。
针对混合使用多副本和纠删码的分布式存储系统中多副本数据向纠删码转换的高效高可靠的编码问题,提出非顺序条带的编码策略NSSE(Non-Sequential Striping Encoder),在保障可靠性的前提下提高编码性能。NSSE在选择k个数据块构建条带时,优先选择在同一机架上的k个不同的数据块,且这k个数据块拥有分别存储在k个机架上的副本,然后在数据块共存的机架上进行编码以降低跨机架的网络流量,提高编码性能,编码后保留不同数据块在不同机架上的副本以保证无位置相关块的产生,保障数据的可靠性。NSSE通过细粒度地匹配数据的访问热度和副本数,分摊编码开销避免存储和网络的I/O突发,在保障负载均衡的前提下优化系统的存储利用率。在测试中对比现有的编码策略,NSSE能够保障无位置相关块的产生,减少50%以上的跨机架流量,减少30%以上的编码时间,减少对线上应用的数据服务性能的影响,将I/O密集型应用因受影响而增加的运行时间减少了60%。
针对数据中心中异构多样的磁盘设备的故障预测建模难题,提出根据数据集规模选择建模方法的故障预测方法OME(Optimized Modeling Engine),为每个磁盘系列构建高质量的故障预测模型。OME结合现有的一对一建模、迁移学习建模以及一对所有建模等方法,根据数据集中故障盘的数量,使用验证比较的方法自动为每个异构的磁盘系列选择合适的建模方法,以构建高质量的故障预测模型,减少人工参与模型调优。OME通过计算数据集的相似度进行迁移源的选择,使用实例迁移的学习方法,提高数据集欠充足的磁盘系列的故障预测模型质量。OME通过应用调优空间的搜索剪枝与基于有向无环图的建模任务并行调度等技术,降低OME进行参数调优和方法选择的时间开销。使用真实数据中心公开的数据集进行测试,采用F1分数(F1-score)衡量模型质量,OME相比起现有的面向异构磁盘设备的建模方法,在F1分数上整体提升了18.5%,达到0.7115,在精确率和召回率上各提升22.3%、14.5%,准确率达到97.18%,误报率降低了34.1%。
针对磁盘故障预测需要兼顾准确度和可解释性的建模难题,提出适应磁盘故障预测特点的解释方法DFPE(Disk Failure Prediction Explainer),在保留复杂模型的强大学习能力的同时提高模型的可解释性,既有利于发现现有模型中存在的问题并促进模型的改进,也有利于在部署应用中提高模型输出的可信度和采取智能的故障处理措施。现有的机器学习模型解释方法,只提供特征重要性作为解释信息,难以适应磁盘故障预测的特点和需求,对故障预测模型的可解释性提升有限。与之相比,DFPE对故障预测模型进行全局解释时,不仅衡量模型的特征重要性,还对故障先例进行统计分析,推测模型的预测规则,计算预测规则在故障先例中的检测率和误报率,有助于发现现有模型中可能存在的偏差和过拟合问题,促进模型的改进;DFPE在对模型输出的故障预测结果进行局部解释时,还分析其所依据的预测规则,并展示相应预测规则的检测率和误报率,以判断故障预测结果是否可信,从而提高故障告警的可信度;此外,可从故障预测结果所依据的预测规则中推测磁盘的故障表现,为后续采取更灵活的故障处理措施提供决策依据。使用现实数据中心公开的数据集进行测试,可视化地展示DFPE对故障预测模型的全局解释信息和对故障预测结果的局部解释信息,表明DFPE的解释信息相比现有的解释方法更加详细准确,通过实例表明DFPE的解释信息更有助于发现模型中存在的偏差问题,并提出模型相应的改进方法,从而保障模型在实际部署应用中的准确性和可信度。
面向数据中心从存储系统的可靠性角度出发,提出非顺序条带的编码策略,应用于异构磁盘设备的故障预测方法,优化磁盘故障预测模型可解释性的解释方法,为提高存储系统的可靠性提供理论和方法。
针对混合使用多副本和纠删码的分布式存储系统中多副本数据向纠删码转换的高效高可靠的编码问题,提出非顺序条带的编码策略NSSE(Non-Sequential Striping Encoder),在保障可靠性的前提下提高编码性能。NSSE在选择k个数据块构建条带时,优先选择在同一机架上的k个不同的数据块,且这k个数据块拥有分别存储在k个机架上的副本,然后在数据块共存的机架上进行编码以降低跨机架的网络流量,提高编码性能,编码后保留不同数据块在不同机架上的副本以保证无位置相关块的产生,保障数据的可靠性。NSSE通过细粒度地匹配数据的访问热度和副本数,分摊编码开销避免存储和网络的I/O突发,在保障负载均衡的前提下优化系统的存储利用率。在测试中对比现有的编码策略,NSSE能够保障无位置相关块的产生,减少50%以上的跨机架流量,减少30%以上的编码时间,减少对线上应用的数据服务性能的影响,将I/O密集型应用因受影响而增加的运行时间减少了60%。
针对数据中心中异构多样的磁盘设备的故障预测建模难题,提出根据数据集规模选择建模方法的故障预测方法OME(Optimized Modeling Engine),为每个磁盘系列构建高质量的故障预测模型。OME结合现有的一对一建模、迁移学习建模以及一对所有建模等方法,根据数据集中故障盘的数量,使用验证比较的方法自动为每个异构的磁盘系列选择合适的建模方法,以构建高质量的故障预测模型,减少人工参与模型调优。OME通过计算数据集的相似度进行迁移源的选择,使用实例迁移的学习方法,提高数据集欠充足的磁盘系列的故障预测模型质量。OME通过应用调优空间的搜索剪枝与基于有向无环图的建模任务并行调度等技术,降低OME进行参数调优和方法选择的时间开销。使用真实数据中心公开的数据集进行测试,采用F1分数(F1-score)衡量模型质量,OME相比起现有的面向异构磁盘设备的建模方法,在F1分数上整体提升了18.5%,达到0.7115,在精确率和召回率上各提升22.3%、14.5%,准确率达到97.18%,误报率降低了34.1%。
针对磁盘故障预测需要兼顾准确度和可解释性的建模难题,提出适应磁盘故障预测特点的解释方法DFPE(Disk Failure Prediction Explainer),在保留复杂模型的强大学习能力的同时提高模型的可解释性,既有利于发现现有模型中存在的问题并促进模型的改进,也有利于在部署应用中提高模型输出的可信度和采取智能的故障处理措施。现有的机器学习模型解释方法,只提供特征重要性作为解释信息,难以适应磁盘故障预测的特点和需求,对故障预测模型的可解释性提升有限。与之相比,DFPE对故障预测模型进行全局解释时,不仅衡量模型的特征重要性,还对故障先例进行统计分析,推测模型的预测规则,计算预测规则在故障先例中的检测率和误报率,有助于发现现有模型中可能存在的偏差和过拟合问题,促进模型的改进;DFPE在对模型输出的故障预测结果进行局部解释时,还分析其所依据的预测规则,并展示相应预测规则的检测率和误报率,以判断故障预测结果是否可信,从而提高故障告警的可信度;此外,可从故障预测结果所依据的预测规则中推测磁盘的故障表现,为后续采取更灵活的故障处理措施提供决策依据。使用现实数据中心公开的数据集进行测试,可视化地展示DFPE对故障预测模型的全局解释信息和对故障预测结果的局部解释信息,表明DFPE的解释信息相比现有的解释方法更加详细准确,通过实例表明DFPE的解释信息更有助于发现模型中存在的偏差问题,并提出模型相应的改进方法,从而保障模型在实际部署应用中的准确性和可信度。