论文部分内容阅读
随着Internet技术的不断发展,各种信息发布技术被广泛所采用。信息的发布形式多种多样,发布源从大的门户网站到小的微博、微信,信息的发布量也越来越大。随之而来的结果是发布信息的质量很难得到保证:一方面,复制信息过程中难免出现一些不一致的或虚假的信息;另一方面,很多发布者倾向于不加甄别的任意复制并转载从其获取的信息。因此,获取信息复制来源与判定复制关系显得尤为重要。复制检测的过程是先观测数据的特点,然后针对这些特点检测数据源之间的复制关系,根据数据源已有的观测特点发现数据源间的复制关系是一种重要的技术手段,而将其应用在真值发现中则可以有效地提高真值发现结果的召回率和准确率。 目前,针对单属性、单表关系的数据源已经提出了一些复制检测算法和真值发现算法,包括单表、单属性,静态、动态,局部、全局的复制检测算法,及使用概率分析的真值发现算法等。但是,目前还未发现支持多关系的数据源的复制关系检测方面的研究工作。本文通过对单关系数据源检测方法的研究结合多关系数据的特点提出了多关系数据上的复制检测算法和真值发现算法。 本文首先对多关系数据的特点进行分析,指出单表关系数据的基本原理缺陷,不能直接推广到多表关系数据上。同时,提出多关系数据复制检测中的基本假设和基本规则,包括数据属性的独立性假设和针对数据冗余提出的Decomposition规则,针对非独立属性值关联特征的Tamper规则,针对子对象伪造的Fake规则。进一步,提出了每类规则的具体应用方式,并结合贝叶斯法则给出了最后复制关系检测的算法。在此基础上,分析了多关系数据的真值发现中可能存在的问题,从而提出多关系数据的真值发现的分解策略。在此策略的指导下,分别提出使用总体的复制概率和子对象的复制概率进行真值发现的All Dependence和Object Dependence规则。在真值发现处理算法中,引入了数据源的可信度、权威度和独立性,重点研究了数据源独立性的计算算法。最后,通过随机生成的理想复制数据集,对本文提出的复制检测算法的各个规则和真值发现算法的规则及不同算法进行了详细地测试,测试结果表明,本文提出的多关系复制检测和真值发现规则能够有效的提高复制检测结果和真值发现的召回率和准确率。