论文部分内容阅读
如今,世界信息总量以每年30%的比例增长,并且比例系数只会上升。与此同时,随着互联网技术的不断成熟,信息数据传播与获取的途径更加方便。这就使得一些组织例如政府机构、金融公司,连锁超市等更多的从多个信息源处搜集相关信息以便做出准确的决策,因此保证搜集信息的准确性尤为重要。然而,不同的数据源对于同一个现实对象可能提供不同的冲突数据,这就要求数据集成系统能够从冲突数据中找出真值。尽管基本的投票算法在很多时候能够奏效,但考虑到错误数据可能在很多数据源之间传播(尤其是web数据源本身的特性),使得数据源本身具有一定的出错率,从而导致投票所选的”真值”具有一定的欺骗性。 本文要解决的问题就是对于一些现实中的真实对象,如何从很多不同的数据源所提供的大量冲突信息中找出它们最为准确的描述。本文在研究了近两年针对此问题的多篇国际顶尖学术论文之后,通过在多个真实数据集上的实验结果对比分析了各个算法的优缺点,并在此基础上最终提出了两个基本算法。一个是基本的迭代算法——IVote,运用数据源本身的可靠性和所提供描述的准确性之间的相互影响关系的概率投票算法。进而在此基础上进行改进,考虑数据源投票的权威性,提出了IRVote算法。最后在多个真实数据集上进行了实验,实验结果表明,两个算法能够有效的发现真值,从而验证了考虑数据源权威性的必要性。 本文还研究了真值发现中数据源依赖所带来的影响,并针对如何尽可能降低数据源依赖对真值发现的影响提出了两种计算数据源依赖的方法。一种是余弦相似度方法,另一种是基于描述划分的贝叶斯方法,并针对每一种方法都进行了相关的实验,结果令人满意。