基于PAC算法的流数据Top-k实时查询

来源 :华中科技大学学报(自然科学版) | 被引量 : 0次 | 上传用户:osinfobyl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对流数据的Top-k查询问题,为降低对存储容量和处理时间的要求,利用概率近似正确(PAC)原理,提出了一种实时查询算法,通过随机抽样近似地估计流数据中最大的k个数据,并保证误差和可信度均在规定的范围内.该算法设置k个随机独立排序器,每个排序器独立地抽取N个数据并返回各自不同的最大值d,然后用这k个最大值排序获得该流数据集合当前的To p-k序列.证明了在给定误差β、可信度γ的条件下,当抽取的样本数量N满足N+1≥log(1-kγ)/log(1-β)时,所得到的Top-k序列即可满足要求的误差和可信度,样本复杂度仅与误差和可信度有关,与当前数据总量无关.在生成的随机浮点数流数据集上进行了实验验证,在给定误差β=0.01的情况下,当抽样数为450时,Top-1查询(即最大数据查询)可以达到γ=0.992的可信度;当抽样数为700时,Top-10查询可以达到0.992的可信度.
其他文献
研究路上最大最小图均衡问题的在线情形.对于边权不可分的情形,在路的长度为2,且总权重W已知或最大权重wmax已知的情况下,该问题没有有限的竞争比.对于边权可分的情形,当n≥3
针对因能量受限所导致的传感器死亡等现实问题,提出一种利用注意力机制进行传感器充电的在线算法,能够根据网络环境的变化动态调整影响充电效率的属性权重,从而选择出合适的
将经典半概念理论引入模糊三支概念进行分析,单向地考虑对象集与属性集之间的关系,从而推广模糊三支概念的应用.在模糊形式背景下,首先,根据对象和属性之间的隶属度关系以及