面向多关系数据的复制检测及真值发现算法

来源 :东北大学 | 被引量 : 2次 | 上传用户:k1389520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的不断发展,各种信息发布技术被广泛所采用。信息的发布形式多种多样,发布源从大的门户网站到小的微博、微信,信息的发布量也越来越大。随之而来的结果是发布信息的质量很难得到保证:一方面,复制信息过程中难免出现一些不一致的或虚假的信息;另一方面,很多发布者倾向于不加甄别的任意复制并转载从其获取的信息。因此,获取信息复制来源与判定复制关系显得尤为重要。复制检测的过程是先观测数据的特点,然后针对这些特点检测数据源之间的复制关系,根据数据源已有的观测特点发现数据源间的复制关系是一种重要的技术手段,而将其应用在真值发现中则可以有效地提高真值发现结果的召回率和准确率。  目前,针对单属性、单表关系的数据源已经提出了一些复制检测算法和真值发现算法,包括单表、单属性,静态、动态,局部、全局的复制检测算法,及使用概率分析的真值发现算法等。但是,目前还未发现支持多关系的数据源的复制关系检测方面的研究工作。本文通过对单关系数据源检测方法的研究结合多关系数据的特点提出了多关系数据上的复制检测算法和真值发现算法。  本文首先对多关系数据的特点进行分析,指出单表关系数据的基本原理缺陷,不能直接推广到多表关系数据上。同时,提出多关系数据复制检测中的基本假设和基本规则,包括数据属性的独立性假设和针对数据冗余提出的Decomposition规则,针对非独立属性值关联特征的Tamper规则,针对子对象伪造的Fake规则。进一步,提出了每类规则的具体应用方式,并结合贝叶斯法则给出了最后复制关系检测的算法。在此基础上,分析了多关系数据的真值发现中可能存在的问题,从而提出多关系数据的真值发现的分解策略。在此策略的指导下,分别提出使用总体的复制概率和子对象的复制概率进行真值发现的All Dependence和Object Dependence规则。在真值发现处理算法中,引入了数据源的可信度、权威度和独立性,重点研究了数据源独立性的计算算法。最后,通过随机生成的理想复制数据集,对本文提出的复制检测算法的各个规则和真值发现算法的规则及不同算法进行了详细地测试,测试结果表明,本文提出的多关系复制检测和真值发现规则能够有效的提高复制检测结果和真值发现的召回率和准确率。
其他文献
XML已经成为互联网上数据表示和交换的标准格式。它的原理很简单:标记用来表示数据元素的语义,元素之间的嵌套和引用来表示它们之间的关系。这些特性使得XML不仅可以表示结构
该文借助图像信号在频率域和空间域的特征和数学知识及边缘检测与阈值分析技术,系统研究了已有的有序抖动图像常用滤波方法.在此基础上,针对目前彩色有序抖动半调图像逆半调
现有的数据库大多是关系型的数据库,若将其改造为模糊数据库既费时又费力,因此在关系型数据库基础上进行模糊查询显得更为实际,也更具有现实意义。传统的关系型数据库只能表
该文针对增强型学习领域中的目标状态问题,提出了基于优化状态转换信任度的增强型学习算法COSTRLA(Credit of Optimal State Transition based Reinforcement Learning Algor
随着互联网技术的迅猛发展,人们的衣食住行越来越依赖于网络,相应的网络为用户提供的服务也越来越丰富。虽然网络的传输能力在不断增加,网络用户指数级增长的带宽要求对网络
该系统就是以对VOIP技术的研究为出发点,进而实现的pC-to-PC形式的IP电话系统.该文首先概述了VOIP的实现原理,将IP电话同传统的PSTN电话进行了对比,以显示其所具有的优点,并
IP组播(IP Multicasting)是最近几年在计算机网络领域里兴起的一项新技术,它是一种特殊的高效的通信方式.在这种方式中,发送端将一个单独的信息流同时传送到多个接收端.它支
该文阐述了瘦客户计算的概念,分析了瘦客户机的应用领域和它对操作系统的需求,针对瘦客户机的需求基于Linux设计了一个嵌入式操作系统:ThinOS.它具有体积小,可移植性好,兼容
Web服务基于Internet平台,拥有完全开放的标准协议,并不断借鉴吸收现有的分布式和组件技术的优点,是一个具有广阔应用前景的技术。不过Web服务技术推出的时间还较短,很多方面还不
该文首先概述了目前三种主要的计费系统:基于路由器的计费系统、基于proxy的计费系统和透明网关计费系统.它们有各自的优点,但它们有着一个共同的最大缺点——当网络流量增大