基于核相似性和低秩近似的缺失值填充算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:wangdalu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘的目的是在复杂的数据集中发现有价值的规律或知识。这需要专业人员建立可靠的算法模型来发掘,而可靠的算法模型依赖于高质量的数据。缺失值在各行各业中普遍存在,这些缺失值严重影响了数据质量。如何准确,有效的处理缺失值是当前数据挖掘领域研究的一个热点。通常处理缺失值有两类方法:删除法和填充法。对删除法来说当数据集中含有大量的缺失数据时,直接删除会导致训练样本丢失大量信息。填充法则经过较长时间的发展有了较完备的理论和技术,其种类也不断的更新发展。该方法利用数据集本身对缺失值进行填充,使得整个数据集完整,有利于模型的建立。近些年低秩技术在图像恢复,推荐系统得到了很好的应用,利用低秩矩阵进行建模,通过子空间来逼近样本空间,能够得到原始空间的近似解。本文主要是研究基于核相似性和低秩近似的缺失值填充算法,在填充的方法和策略上做了一些改进,主要的工作如下:1.基于核相似性来构造缺失数据的相似样本进行填充。该方法具体是通过核函数的相似性找到同包含缺失值样本最相近的K个完整的样本,最后用这K个样本所对应的缺失属性的加权均值来完成缺失值的填充。2.构建基于相关性阈值的低秩填充模型。首先计算包含缺失值样本同其他样本间的线性相关性,然后设定Pearson线性相关性阈值a,将线性相关性大于该阈值a的样本选出来,接着构建低秩填充模型,最后求解得到该缺失值。3.低秩矩阵填充在风速缺失值上的应用。本文将时间序列的风速数据转换成低秩矩阵形式,通过实验来决定风速矩阵的行数和列数,采用GROUSE优化算法通过子空间更新策略找到求解最小核范数的最优解,从而填补缺失的风速值。实验表明,基于核相似性的缺失值填充算法在相同的缺失比例下填充效果最优。而基于线性相关性阈值的低秩填充算法,在大样本集上的表现优于在整个缺失样本上一次性填充的结果。将基于时间序列的短时风速数据转换为矩阵的形式,然后利用低秩近似的方法进行填充,效果好于传统的填充方法。
其他文献
中心地理论作为现代城市地理学的核心理论,揭示了城市的分布和规模发展的规律,是指导城市群建设以及城市化发展的基础理论。随着社会经济的发展,城市中心性和城市地价均呈现
研究背景和目的埃博拉病毒是一种人畜共患烈性传染病病毒,属丝状病毒科病毒,致病性强,病死率高。世界卫生组织将其列为最危险的八种传染病病原体之一。埃博拉病毒目前发现共
永磁同步直线电机(Permanent Magnet Linear Synchronous Motor,PMLSM)有着速度快、精度高和推力大等特点,被广泛应用于精密加工领域如IC制芯、高档数控机床等。然而,由于电机本体设计的缺陷和逆变器的非线性特性,永磁同步直线电机的电磁推力存在较大的波动,从而限制了其在高精度场合的应用。因此,研究减小永磁同步直线电机推力波动的控制算法,增加推力平滑度,具有重大工
微粒群算法(PSO)是一种具有全局收敛能力的智能优化算法,它是模拟鸟群觅食而得到的仿生优化算法。该算法主要通过粒子间的相互合作和竞争来进行迭代寻优,微粒群算法具有算法
随着数据分析技术的进步,不确定性和相关关系作为数据分析的重要元素,已被广泛应用。相关关系衡量了维度之间的变化关系,而基于不确定性的相关关系则衡量了维度不确定性之间
濒危古代壁画的保护工作刻不容缓。绘制壁画的线描图是保护壁画的一项重要工作。传统依靠手工的线描图绘制方法工序复杂、耗时巨大、效率低下,非常不利于壁画的保护工作。因
船舶在下水过程中,需要实时不间断的进行拉力数据监测,因为在牵引过程中,拉力值在不断发生变化,如果数据不及时反馈,会造成船舶下水安全隐患。传统船舶下水拉力测量方法一般通过人工读取船舶拉力计,该方法存在读取数据量小、施工人员安全性低、人工记录误差大等问题。本文设计了一种基于蓝牙BLE技术的船舶下水监测系统,通过在多个关键点的牵引处布置拉力采集节点,利用蓝牙BLE无线技术把牵引点的拉力数据传输给基于Qt
随着经济发展和结构性改革进一步深化,城市区域化进程不断加快。城市地价作为区域经济的重要表现形式,体现了区域经济发展的水平,其不仅与自身经济水平有关,还受区域中心城市
在现代流程工业生产控制中,通过报警可及时发现生产过程中异常情况,然而,因为缺乏严格的报警管理和合理化的优化措施,导致有效报警淹没在大量无效的或重复的报警之中,报警泛
研究表明,DEHP暴露会引起DNA损伤,还可能干扰细胞周期。长期低剂量暴露于环境内分泌干扰物的混合物(包含DEHP)可引起miRNA的表达失调,以及小鼠睾丸内雌二醇含量的减少。DEHP能够通过氧化应激诱导神经毒性,但是否存在其他分子机制仍待进一步研究。miR-7a是生物体细胞、组织和器官的正常发育过程中不可或缺的一部分。miR-7a能够通过调节靶基因cdc42影响小鼠神经干细胞迁移和增殖,从而抑制