论文部分内容阅读
管道漏磁内检测技术最关键的缺陷反演问题中,大量算法和模型都是建立在理想的数据集上。而实际项目运行中,由于内检测器装置的工作环境复杂,随着运行时间及运行距离的延长,用于采集漏磁信号的个别传感器难免出现短暂的故障,由此得到的数据集通常存在着大量失效数据。这些失效数据将严重影响数据挖掘的质量,成为后续数据分析工作的障碍。因此,为了提高分析结果的可信度,在对漏磁数据集进行分析之前,有必要对数据集进行预处理工作,数据清洗即是预处理中的重要环节。
文章首先介绍了论文选题的背景及意义,提出失效数据清洗技术要解决的两大问题,即失效数据的清除问题和缺失数据的插补问题,分别对其进行详细的介绍和分析。具体研究内容如下:
第一,设计面向漏磁内检测数据的失效数据检测方法。首先,对漏磁失效数据进行具体特征分析,完成失效数据类型分类。然后针对不同的失效数据类型,设计相应的失效数据剔除方法,并对数据集中失效数据的剔除效果进行分析。
第二,设计面向漏磁缺失数据的插补方法。首先,分析经失效数据剔除后的缺失数据集,根据缺失程度进行分类。利用双线性插补方法处理随机单点缺失类型。针对区域数据缺失类型,结合三次Lagrange插值与三次样条插值,设计权值自适应的多重插补方法,通过分析对比仿真及试验结果,完成对算法的优劣评估。
第三,设计基于KNN(K-NearestNeighbor)的漏磁缺失数据插补方法。为了提高区域缺失类型的插补精度,通过处理历史完整的漏磁数据特征信号,构建KNN近邻搜索样本集,利用近邻样本中相应数据点来预测待插补样本中的缺失数据点。为了克服KNN算法在高维样本空间中搜索效率低的缺点,通过结合K-D tree(K-Dimensional tree)数据结构,并改进近邻搜索中距离计算方法,设计基于K-D tree的KNN高效近邻搜索方法。
第四,设计基于KNN与SVR(Support Vector Regression)结合的改进漏磁数据插补方法。根据待插补样本中相应位置缺失与否,将所得每个近邻样本划分为输入输出两部分,利用SVR进行回归训练,将所得模型应用于该待插补样本,完成缺失点的插补任务。通过对比分析插补结果,设计可以应对不同场合需求下的数据插补方法流程。
最后在总结全文的基础上,对未来的研究方向进行了展望。
文章首先介绍了论文选题的背景及意义,提出失效数据清洗技术要解决的两大问题,即失效数据的清除问题和缺失数据的插补问题,分别对其进行详细的介绍和分析。具体研究内容如下:
第一,设计面向漏磁内检测数据的失效数据检测方法。首先,对漏磁失效数据进行具体特征分析,完成失效数据类型分类。然后针对不同的失效数据类型,设计相应的失效数据剔除方法,并对数据集中失效数据的剔除效果进行分析。
第二,设计面向漏磁缺失数据的插补方法。首先,分析经失效数据剔除后的缺失数据集,根据缺失程度进行分类。利用双线性插补方法处理随机单点缺失类型。针对区域数据缺失类型,结合三次Lagrange插值与三次样条插值,设计权值自适应的多重插补方法,通过分析对比仿真及试验结果,完成对算法的优劣评估。
第三,设计基于KNN(K-NearestNeighbor)的漏磁缺失数据插补方法。为了提高区域缺失类型的插补精度,通过处理历史完整的漏磁数据特征信号,构建KNN近邻搜索样本集,利用近邻样本中相应数据点来预测待插补样本中的缺失数据点。为了克服KNN算法在高维样本空间中搜索效率低的缺点,通过结合K-D tree(K-Dimensional tree)数据结构,并改进近邻搜索中距离计算方法,设计基于K-D tree的KNN高效近邻搜索方法。
第四,设计基于KNN与SVR(Support Vector Regression)结合的改进漏磁数据插补方法。根据待插补样本中相应位置缺失与否,将所得每个近邻样本划分为输入输出两部分,利用SVR进行回归训练,将所得模型应用于该待插补样本,完成缺失点的插补任务。通过对比分析插补结果,设计可以应对不同场合需求下的数据插补方法流程。
最后在总结全文的基础上,对未来的研究方向进行了展望。