数据集成中的真值发现研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xinxing1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,世界信息总量以每年30%的比例增长,并且比例系数只会上升。与此同时,随着互联网技术的不断成熟,信息数据传播与获取的途径更加方便。这就使得一些组织例如政府机构、金融公司,连锁超市等更多的从多个信息源处搜集相关信息以便做出准确的决策,因此保证搜集信息的准确性尤为重要。然而,不同的数据源对于同一个现实对象可能提供不同的冲突数据,这就要求数据集成系统能够从冲突数据中找出真值。尽管基本的投票算法在很多时候能够奏效,但考虑到错误数据可能在很多数据源之间传播(尤其是web数据源本身的特性),使得数据源本身具有一定的出错率,从而导致投票所选的”真值”具有一定的欺骗性。  本文要解决的问题就是对于一些现实中的真实对象,如何从很多不同的数据源所提供的大量冲突信息中找出它们最为准确的描述。本文在研究了近两年针对此问题的多篇国际顶尖学术论文之后,通过在多个真实数据集上的实验结果对比分析了各个算法的优缺点,并在此基础上最终提出了两个基本算法。一个是基本的迭代算法——IVote,运用数据源本身的可靠性和所提供描述的准确性之间的相互影响关系的概率投票算法。进而在此基础上进行改进,考虑数据源投票的权威性,提出了IRVote算法。最后在多个真实数据集上进行了实验,实验结果表明,两个算法能够有效的发现真值,从而验证了考虑数据源权威性的必要性。  本文还研究了真值发现中数据源依赖所带来的影响,并针对如何尽可能降低数据源依赖对真值发现的影响提出了两种计算数据源依赖的方法。一种是余弦相似度方法,另一种是基于描述划分的贝叶斯方法,并针对每一种方法都进行了相关的实验,结果令人满意。
其他文献
在推荐算法领域,基于邻域模型的协同过滤(Collaborative Filtering,CF)推荐算法是一类较为经典成熟的算法,广泛的应用于当今各式各类的推荐系统中。随着大数据时代的来临,数
车标识别作为智能交通系统的一个重要组成部分,在车辆管理和交通管理领域具有广泛的应用前景,同时车标识别为车辆身份认证提供了重要信息具有一定的研究价值。现有的车标识别算
在高速发展的现代社会,传统的教育方式已远远满足不了人们对于知识的需求,同时也曝露出了诸多问题:知识更新速度慢、资源不足、资源利用不充分、教学成本高、问题解决不及时。
有效的资源管理和调度对于分布式计算来说是必不可少的,而对计算任务在不同计算资源之下的运行时间的预估是许多资源调度方法的基础。基于判例的预测技术是近年新出现的一种
近年来,Peer-to-Peer网络(简称P2P)系统已经引起了众多关注,特别是它可以提供文件共享的应用,同时分布式计算和基于Internet的电话也已经成功地实现。在这些应用中,P2P概念主
目前,对等网络技术已经成为计算机领域的一个研究热点。对等网络中存在大量可用的数据对象。由于对等网络的规模庞大,如何在分布式的网络环境中提高内容搜索效率是研究对等网
本文首先描述了身份认证的概念、分类及其使用的关键技术,着重于问答认证技术。接着描述了哈希函数的概念、安全性假设及其在问答认证中的应用。然后从两个层面对哈希函数的
随着信息技术的发展,特别是互联网的迅速发展和广泛普及,导致了各种信息资源呈现爆炸式的增长,信息检索系统成为人们获取这些信息必不可少的工具。然而目前的检索系统都是针
随着电子商务的飞速崛起,快递企业如何合理安排运输车辆以降低运输成本成为一个迫切需要解决的问题。快递车辆路径问题是经典的车辆路径问题(Vehicle Routing Problem, VRP)
如何根据地质钻孔资料构建勘探区地层结构,一直是地学界研究的重要课题。论文结合巨野煤田赵楼井田地质钻孔资料,对该井田的地层组合特征进行了三维可视化研究,主要研究内容