【摘 要】
:
一个端到端的数据融合系统在如下几个阶段需要用户的反馈,包括为实体匹配收集训练数据的阶段,对计算出来的实体聚类进行纠错的阶段以及对每个实体聚类中的数据形式进行转换的阶段.经过这些步骤之后,数据融合系统可以将每个实体分组中的实体合并成一条权威的实体表示(被称作“黄金记录”).传统的数据融合系统通常会按照特定的顺序,在用户时间代价不超过预算的前提下,依次询问特定集合中的问题并且获得用户反馈.可是,由于这些问题是高度相关的,一个问题的答案会影响到数据处理管道中任何一个阶段的结果,所以将各个阶段交替进行并且对他们的
【机 构】
:
清华大学计算机系 北京 100084
论文部分内容阅读
一个端到端的数据融合系统在如下几个阶段需要用户的反馈,包括为实体匹配收集训练数据的阶段,对计算出来的实体聚类进行纠错的阶段以及对每个实体聚类中的数据形式进行转换的阶段.经过这些步骤之后,数据融合系统可以将每个实体分组中的实体合并成一条权威的实体表示(被称作“黄金记录”).传统的数据融合系统通常会按照特定的顺序,在用户时间代价不超过预算的前提下,依次询问特定集合中的问题并且获得用户反馈.可是,由于这些问题是高度相关的,一个问题的答案会影响到数据处理管道中任何一个阶段的结果,所以将各个阶段交替进行并且对他们的执行顺序进行全局优化能带来显著的收益.在这篇文章中,我们提出一个“人在回路”的数据融合系统,通过交替询问不同种类的问题来减少获得用户回答的代价.基于这个框架,我们提出了一些不同种类问题能够带来的数据融合质量提升的收益评价模型,以及不同问题需要的用户回答时间的代价评估模型.在这个端到端的“人在回路”数据融合系统中,我们开发出一个问题调度框架来精心选择问题集合以及问题询问的顺序,最终实现利用同等的用户代价让实体合并的精确度从基线方法的70%提升到90%.
其他文献
空间并置(co-location)模式挖掘是指在大量的空间数据中发现一组空间特征的子集,这些特征的实例在地理空间中频繁并置出现.传统的空间并置模式挖掘算法通常采用逐阶递增的挖掘框架,从低阶模式开始生成候选模式并计算其参与度(空间并置模式的频繁性度量指标).虽然这种挖掘框架可以得到正确和完整的结果,但是带来的时间和空间开销非常大.此外传统方法对于空间并置模式的最小频繁性阈值较为敏感,当最小频繁性阈值改变时整个挖掘过程需要重新进行.因此,本文提出一种基于极大团和哈希表的空间并置模式挖掘算法CPM-MCHM(C
为掌握铜仁市家禽高致病性禽流感病毒的感染情况,及时研判疫情风险,保障养禽业的健康发展,2020年12月至2021年3月在全市10个县(区)随机选择1个规模场(或种禽场)、1个活禽交易市场(或禽屠宰点),采集咽肛双棉拭子样品和环境拭子样品共计890份,通过实时荧光定量PCR方法检测高致病性禽流感病毒(H5、H7亚型).结果:13个家禽规模场和9个活禽交易市场全部样品的高致病性禽流感病毒(H5、H7亚型)核酸检测均为阴性.结论:2020—2021年冬春季铜仁市养殖家禽无高致病性禽流感病毒(H5、H7亚型)感染
文章介绍了对贵州省沿河土家族自治县客田镇浦井村发生的1起山羊布鲁氏菌病疫情的处置情况,按照“早、快、严、小”的处置原则,通过封锁疫点、扑杀阳性羊、无害化处理污染物、全场消毒等综合防控措施,及时扑灭了疫情.对全县开展羊布鲁氏菌病监测,共监测羊场109个,监测血清样品7378份,检出布鲁氏菌病阳性场13个,群体阳性率11.93%;检出布鲁氏菌病抗体阳性血清160份,个体阳性率2.17%.对阳性场每月进行全群复检,及时淘汰阳性羊,直至无阳性羊检出为止,控制了疫情扩散蔓延.
边缘计算模式满足数据的实时和低功耗处理需求,是缓解当前网络数据洪流实时处理问题的有效方法之一.但边缘设备资源的异构与多样性给任务的调度与迁移带来极大的困难与挑战.目前,边缘计算任务调度研究主要集中在调度算法的设计与仿真,这些算法和模型通常忽略了边缘设备的异构性和边缘任务的多样性,不能使多样化的边缘任务与异构的资源能力深度匹配.本文针对边缘计算系统资源异构且受限的特性,研究边缘任务与目标设备资源深度匹配的有效方法,提出基于任务资源匹配、负载均衡和任务公平性的综合匹配度评估方法(integrative mat
文章介绍了马骨关节炎的特点、发病原因及治疗药物,比较各药物在治疗中存在的优劣,提出马骨关节炎要以预防为主,降低使役强度和频率,从而减少发病率,降低治疗成本.
三维模板跟踪旨在将预先构建的三维CAD模型与输入图像中的相应目标进行精确配准,在增强现实、机器人等领域具有重要的应用,也是计算机视觉领域的关键问题之一.近年来,三维模板跟踪的准确率和稳定性都得到了持续提升,但仅有少量的工作关注三维模板跟踪数据集的构建.随着深度学习的普及,各领域中大规模数据集的构建越来越被重视,为算法的训练、测试和评估奠定了基础,极大地推动了相关领域的发展.以往的三维模板跟踪数据集大多存在规模有限,画面不够自然、真实,多样性不足等问题.基于此,本文创建了一个大规模的基于真实感渲染的三维模板
食品与人类的行为、健康和文化等密切相关.社交网络、移动网络和物联网等泛在网络产生了食品大数据,这些大数据与人工智能,尤其是快速发展的深度学习催生了新的交叉研究领域食品计算.作为食品计算的核心任务之一,食品图像识别同时是计算机视觉领域中细粒度视觉识别的重要分支,因而具有重要的理论研究意义,并在智慧健康、食品智能装备、智慧餐饮、智能零售及智能家居等方面有着广泛的应用前景.为此,本文对食品图像识别领域进行了全面综述.该文首先从识别对象、视觉特征表示及学习方法等不同维度对目前的食品图像识别进行分类并深入阐述和分析
流行病数据的多层面可视分析,可以加快流行病数据分析任务的交互式探索效率和加深对潜在模式的深刻理解.本文对流行病数据可视分析的相关工作展开综述,并主要通过四个方面进行总结和归纳:(1)流行病数据的时空可视分析,帮助用户发现和理解流行病数据在时间、空间以及时空维度中潜在的流行病特征和传播规律等;(2)流行病数据中涉及非结构化/半结构化文本的语义可视分析,辅助用户快速了解长、短文本内容中的流行病内容态势、情感走向等;(3)流行病传播模型的可视分析,增强用户对流行病传播过程中的预测、仿真、监测等任务的交互式理解;
随着IEEE 802.11-2016协议(也称为802.11mc)的精确时间测量(FTM)定位解决方案的引入,通过RTT往返时间来进行测距并进行定位的技术路线正在得到重视.目前提出的基于FTM的测距方案测距精度在视线环境下通常具有1~2 m的偏移误差,由于在802.11mc中,噪音不具备高斯性,精度的进一步提升存在着较大困难,进而导致定位精度达不到米级.本文选用了成本仅在数百元量级的市场设备搭建室内定位系统,提出了一种新的单目标网络定位方案——基于极大似然估计与核密度估计的可扩展贝叶斯定位算法(MLKB)
传统的汽车仪表检测方法主要是依靠人工进行检测,该方法存在着检测效率低下且检测精度不高的问题,针对这些问题,设计了一种基于机器视觉的汽车仪表检测系统.首先,介绍了该检测系统的整体组成,然后主要介绍了该系统中的软件,以及仪表指针的检测算法和流程;并且根据指针与背景是否易于分离,将汽车仪表分为两类;接着,采用阈值分割法对指针进行了粗定位,随后根据仪表类型,分别采用骨架提取和灰度法对指针进行了细化,采用基于Tukey权重函数的迭代加权最小二乘法拟合了指针直线,对指针进行了精定位;提出了一种最小距离和的交点法对指针