论文部分内容阅读
重复数据的存在对数据管理和使用带来了极大的困扰,图数据能够很好地反应数据与数据之间的联系,是数据发展的趋势。对于重复数据对的检测已经有大量研究,但鲜有研究关注于对检测后数据对的合并清理。由于图数据中数据关联的复杂性,如果随意去掉其中一个数据将会带来数据间关系的混乱,所以,对于图数据中数据的去重问题更为重要。针对以上问题,为了保证图数据之间的关联关系和图的稳定性,研究在检测重复数据后,提出一种适合图数据中重复数据对的整合清理策略。该策略将图收缩性引入清理方法,针对不同的情况采用不同的处理方法,以保证清理后图