论文部分内容阅读
S-¢查询作为一种典型的偏好查询方法,由于它能够从多属性数据集中快速提取用户感兴趣的数据点,该查询技术已经被广泛研究。几乎所有针对§-¢查询的方法都假设数据集中不存在属性值缺失问题,然而在实际应用中,例如决策制定、基于位置的服务(LBS)和商品评价数据中,由于设备异常,隐私保护等原因,我们收集到的真实记录数据往往都是不完整的,即存在属性值缺失的问题。我们称存在属性值缺失或元组缺失问题的数据为不完整数据集,本文主要考虑存在属性值缺失问题的不完整数据。传统处理不完整数据的方法主要是填充和修复不完整属性,然而这些方法要么花费太多时间,要么精度不高。对于§-¢查询来说每一个属性都可能是该点成为§-¢点的决定性因素,如果一个点不被任何其他点支配,该点才能成为§-¢点。因此普通填充方法对§-¢查询结果影响较大,已有的填充技术都不太适用于§-¢查询。目前不完整数据的§-¢查询研究并没有引起足够的重视,尤其是针对大规模数据和高维数据,它们存在不完整性的可能性更大,因此针对不完整数据的§-¢查询问题研究更加具有实际意义,而且更具有挑战性。本文根据数据集存在的不完整性问题,分析不完整数据自身的特性,提出了不完整数据支配度这一概念,设计了针对静态不完整数据集的EIDS算法,能够极大减少不完整数据之间的属性比较次数,有效提高算法执行效率,节省执行时间开销。然后我们将该问题扩展到动态不完整数据集中,考虑动态数据集的变化特征,在分析传统滑动窗口模型的基础上提出了基于滑动窗口进行分桶策略的sISkyline算法。