论文部分内容阅读
为解决企业异常用水模式检测过程中的低频短时间序列数据和不平衡分类问题,提出了一种基于孤立森林采样策略的二分类预测方法。首先构造用水波动性特征和统计性特征,利用孤立森林算法计算多数类中样本点的“孤立”程度以衡量每个样本的“代表性”,再按样本“代表性”排序,对“代表性”高的样本优先进行采样;然后将抽取出的样本与少数类合并,构成较平衡的训练样本集;最后利用较平衡的数据集训练XGBoost分类器并进行预测。在某市的7604家企业13个月的用水量数据集上,该方法对企业异常用水模式的预测结果AUC和查全率可达到0.9