【摘 要】
:
随着信息技术的飞速发展,数据呈指数级别增长。这些数据在深刻改变人们生产生活方式的同时,也带来了许多挑战,比如数据质量问题。由于数据在采集、传输等过程中受各种因素的干扰,不完整数据广泛存在于众多领域。不完整数据查询处理已经在数据分析、机器学习等领域得到深入研究。在众多查询中,TopK查询检索用户最感兴趣的k个对象。目前,针对存在不完整性的数据的Top-K查询技术主要面向流数据,现有的不完整数据Top
论文部分内容阅读
随着信息技术的飞速发展,数据呈指数级别增长。这些数据在深刻改变人们生产生活方式的同时,也带来了许多挑战,比如数据质量问题。由于数据在采集、传输等过程中受各种因素的干扰,不完整数据广泛存在于众多领域。不完整数据查询处理已经在数据分析、机器学习等领域得到深入研究。在众多查询中,TopK查询检索用户最感兴趣的k个对象。目前,针对存在不完整性的数据的Top-K查询技术主要面向流数据,现有的不完整数据Top-K查询技术基于众包模式。由于动态数据与静态数据存在本质差别,众包技术需要特定条件,所以不完整数据Top-K查询不能使用以前的技术。针对该问题,给出不完整数据Top-K查询问题及其支配关系的定义,提出一种结合剪枝策略和填补策略的算法。通过在bilibili Videos数据集和合成数据集上的对比实验,评估数据规模、缺失率对算法的影响,证明所提出算法的查全率和执行时间优于没有剪枝策略的同类算法。在不完整数据上进行Top-K查询时,可能会出现期待的元组没有出现在查询结果中的现象,即Why-Not问题。回答Why-Not问题有助于提高查询结果的完整性和准确性。Top-K查询、空间关键字Top-K查询和反Top-K查询中的WhyNot问题都已经得到广泛研究。但是,这些研究针对完整数据,现有的方法不能解决不完整数据Top-K查询的Why-Not问题。针对上述问题,给出代价函数的定义,采用调整查询、修改填补值的方法恢复丢失的期待元组,并找出代价最小的解决方法。通过在bilibili Videos数据集和合成数据集上的大量实验,证明算法具备较高的准确性和效率。
其他文献
航母及舰载机的相关研究在各国军事领域上都具有非常重大的战略意义,其中舰载机在航母上的着舰安全一直是一个不容忽视的问题。舰载机着舰是一项非常困难且危险的任务,过程中所受到的影响因素复杂多样,现有研究从不同的角度针对舰载机着舰的影响因素进行了分析,并且对着舰安全状态判定提出了解决方法。本文首先对某舰载机在航母上的真实着舰数据进行预处理得到总样本数据,然后使用这些数据分别利用传统的Fisher判别法和B
目的:通过临床对照研究,评价中医限食疗法能对脾虚证代谢综合征患者心血管危险因素及脾虚证候积分的影响。方法:选取珠海市中西医结合医院2018年6月至2019年6月期间收治的106例脾虚证代谢综合征患者,随机分为对照组(50例)与观察组(56例)。对照组患者实施低热量低脂饮食计划,观察组患者实施中医限食疗法。观察治疗前后及随访12周体质量等基本资料、血脂及脾虚证候积分。结果:与对照组相比,观察组患者随
目的 比较膝关节单髁置换术(unicompartmental knee arthroplasty, UKA)常规截骨、保留圆角截骨及全新扩大圆角截骨方法对术后胫骨近端生物力学特性的影响。方法 基于Sawbones胫骨的CT数据,构建完整胫骨模型及不同截骨方式下UKA术后胫骨模型,采用轴向压缩工况对模型进行有限元分析,比较不同模型间胫骨近端应变情况及骨水泥应力差异。结果 在轴向压缩工况下,扩大圆角组
[目的]介绍计算机引导机械臂膝单髁置换术(unicondylar knee arthroplasty, UKA)的手术技术和初步临床效果。[方法] 20例膝内侧间室骨性关节炎患者接受手术。术前采集患者膝关节CT数据,导入天眼系统,选出匹配假体并规划假体位置。术中应用计算机引导机械臂,于胫骨近端打入3枚克氏针确定胫骨截骨平面,精准截骨,放置匹配假体,实施计算机引导下UKA手术。术后6个月对患者膝关节
图计算在诸多现实场景中具有广泛的应用,例如路径导航、社交网络分析以及广告推荐等。随着图数据规模的急速增长,图计算高性能需求与日俱增。FPGA因其细粒度的并行性、较高的能效和可编程性,已然成为包括数据中心在内的新型计算基础架构。高层次综合允许用户使用高级语言对FPGA进行编程,可大幅降低FPGA硬件开发门槛,采用高层次技术是平衡图计算高效性和易用性的重要技术途径。然而,现有基于高层次综合的图计算方法
随着互联网信息的爆炸式增长,搜索引擎和新闻系统从冗余且信息分散的网络文章中捕捉核心的新闻事件信息,并生成更精细的事件描述,为读者提供实时的事件热点,从而提升用户的阅读体验和时新事件感知。现代信息社会中,从长篇的文章中提炼核心事件信息,具有重要的工业应用价值,对于提升用户的阅读体验至关重要。因此,本文致力于解决这样一个重要且富有挑战性的任务,称为文章事件短描述生成(AES),该任务旨在为开放域中来自
Hashtag是一种具有特殊形式的主题标签,在社交网络中,常用于标识用户发布内容的主题。鉴于Hashtag的广泛应用和社交网络平台数据规模的庞大,越来越多的社交网络平台开始通过Hashtag检索和管理平台上的数据。由于部分数据存在Hashtag标注不合理问题,因此,需要一种有效的Hashtag推荐方法,为用户推荐合理的Hashtag标签。多模态数据理解和用户个性化推荐是Hashtag推荐方法研究中
背景:膝关节单髁置换手术能有效治疗膝关节单侧严重骨关节炎,临床上发现单髁置换后容易发生胫骨后侧骨皮质断裂,断裂始于胫骨截骨的龙骨槽处,胫骨假体立柱长度影响单髁置换后膝关节的生物力学结果。目的:探讨单髁置换中胫骨假体立柱长度对膝关节生物力学的影响,找出假体立柱长度与患者胫骨前后径的关系。方法:选取37岁无膝关节疾病史健康女性志愿者的计算机断层扫描图像数据和常用单髁假体,建立自然膝关节模型并建立单髁假
人体行为识别是目前人机交互和人工智能领域的热门方向,具有十分重要的研究价值以及广泛的应用前景。尤其是针对人体行为识别的各种数据源出现,单一模态的行为识别已经不能满足实际需求,利用多模态机器学习有效融合多个来源的异构信息变得越来越重要。针对目前传统融合策略不能提供足够的信息对多种数据复杂关系进行建模的问题,分别就多传感器场景以及多异构模态场景,提出了对应的融合架构。首先,为了在多传感器领域提取每个惯
近年来,深度学习在包括文本分类、情感分析以及机器翻译等各种自然语言处理任务中都取得了巨大的成功。但是,研究人员发现基于深度学习的自然语言处理模型容易受到对抗文本的攻击,具有一定的脆弱性。对抗文本是通过在原始文本上添加通常不易被察觉的微小扰动而生成的。这些被精心设计的文本容易导致深度学习模型做出错误的预测,该研究引起了学术界和工业界对现有深度学习算法安全性和完整性的广泛关注。另外有研究表明,通过生成