论文部分内容阅读
互联网是人类获取数据的重要来源,因此,如何从互联网上的海量数据中获取准确可用的数据,成为了一个研究热点,信息集成、问答系统、知识发现等都与互联网的信息获取技术息息相关。随着人类社会进入互联网时代,人类在互联网上留下了包括社交、购物、交易、娱乐等多种多样的数据,数据的获得显得简单而便捷。但是,数据的爆炸式增长也为信息的获取增加了难度,在大量的数据中筛选出有价值的信息是一件费时费力的事情。同时,由于互联网上的数据来源很多,不可避免的存在有一部分的数据源在提供信息时有错误、遗漏或者是过期的情况,因而对于同一对象的描述并不能保证完全一致,这也使得对数据的利用较为困惑。在Deep Web方面,很多数据提供商均会提供对同一对象的描述,并且均存在一定程度的加工,如何挖掘数据中的真值是个值得研究的问题。在大数据时代,数据是极有价值的东西,如何利用数据始终是一个热门的话题,而怎样保证数据正确性,并消除数据间的不一致导致的歧义,则是数据在使用过程中至为关键的问题。图模型与真值发现问题的研究已经经历了很长时间的发展,将图模型合理应用于真值发现中将有助于模型结果的优化,得到较好的真值预测效果。本文进行了基于图模型的真值发现问题研究,借助网络爬虫抓取了包括豆瓣、孔夫子、有路网、中国图书网等网站上的书籍信息,构建了基于图模型的多真值发现算法,并通过实验验证了本文算法的有效性。本文的创新点概括如下:1.提出了多真值发现中一种初始真值的确定方法CVote,该方法基于传统的投票法,改进投票法在多真值发现应用中的限制,有效提升后续真值发现计算的准确度。2.构建了基于图的真值发现模型,并确定了值之间的支持度计算方法,提出了基于图模型的真值发现算法GraphTD。3.将本文提出的理论模型实现,并在书籍作者数据集上进行试验,证明了本文方法的有效性,对比实验也表明,初始真值的选择对最终真值的计算存在一定的影响。本文基于图模型构建了书籍作者数据集上的真值发现算法,借鉴隐马尔科夫模型的转移概率得到了冲突数据源中数据描述的可信度转移矩阵,根据转移矩阵计算了数据描述值的为真的概率的收敛值。同时提出了一种多真值发现算法中初始真值的确定方法CVote,改进了投票发在多真值发现应用中的不足。本文在书籍作者数据集上实现了所提出的真值发现模型并与现有研究中的模型进行对比,证明了本文方法的有效性,为真值计算提供了又一种可选思路。