论文部分内容阅读
随着互联网的发展,数据集成变得越来越重要,数据集成就是将来自多个不同的数据源的数据集成到一起,以便于以集成和统一的方式为用户提供更便捷的信息服务。在数据集成中非常关键的一步是实体解析,数据集成过程中经常出现多条记录指代同一个实体的情况,将这些记录找出来的过程就是实体解析。为了提高实体解析的效率,有研究工作提出了ICAR性质,基于这些性质展开的实体解析可以减少记录对的匹配,但ICAR’性质中的可被代表性在实际中要完全满足比较困难,且基于ICAR’性质的解析算法中将指代同一个实体的相似记录全部都合并,这在实际应用中往往并不合理而且也很难应用。为了提高实体解析的准确性,考虑到记录之间可能存在一定的归属关联关系、交互关联关系以及时间顺序等语义关联信息,这对解析的准确性会有很大的帮助,但是结合这些语义关联关系进行实体解析的研究工作还比较少,因此,本文针对基于多种语义关联的实体解析技术开展研究。首先,为了更好的进行实体解析本文提出了介于ICAR性质中的可被代表性与不可被代表性之间的语义覆盖性的概念。利用这个性质在减少匹配记录对次数的同时,尽可能的让解析结果的表达更合理。基于覆盖性,提出了C-Swoosh算法和C-SNW算法。C-Swoosh算法在比较记录对的时候并没有考虑记录间的顺序,C-SNW算法将记录按照一定的Key值排序以后利用滑动窗口将相似的记录尽可能早的进行比较,从而尽早的将满足覆盖性的记录进行合并,最终达到减少记录间匹配次数的目标。其次,利用归属关联关系、交互关联关系以及时间顺序关系等多种语义关联关系相结合的方法来提高实体解析的准确率。根据多种语义关联关系结合时间顺序关系通过不断迭代处理的方式来捕获实体随着时间发生演化的情况,从而在较大程度上提高了实体解析的精度。最后,通过实验验证了本文所提算法确实获得较好的效果。