数据集成中基于语义的实体解析技术的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:aabbccdd654321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,数据集成变得越来越重要,数据集成就是将来自多个不同的数据源的数据集成到一起,以便于以集成和统一的方式为用户提供更便捷的信息服务。在数据集成中非常关键的一步是实体解析,数据集成过程中经常出现多条记录指代同一个实体的情况,将这些记录找出来的过程就是实体解析。为了提高实体解析的效率,有研究工作提出了ICAR性质,基于这些性质展开的实体解析可以减少记录对的匹配,但ICAR’性质中的可被代表性在实际中要完全满足比较困难,且基于ICAR’性质的解析算法中将指代同一个实体的相似记录全部都合并,这在实际应用中往往并不合理而且也很难应用。为了提高实体解析的准确性,考虑到记录之间可能存在一定的归属关联关系、交互关联关系以及时间顺序等语义关联信息,这对解析的准确性会有很大的帮助,但是结合这些语义关联关系进行实体解析的研究工作还比较少,因此,本文针对基于多种语义关联的实体解析技术开展研究。首先,为了更好的进行实体解析本文提出了介于ICAR性质中的可被代表性与不可被代表性之间的语义覆盖性的概念。利用这个性质在减少匹配记录对次数的同时,尽可能的让解析结果的表达更合理。基于覆盖性,提出了C-Swoosh算法和C-SNW算法。C-Swoosh算法在比较记录对的时候并没有考虑记录间的顺序,C-SNW算法将记录按照一定的Key值排序以后利用滑动窗口将相似的记录尽可能早的进行比较,从而尽早的将满足覆盖性的记录进行合并,最终达到减少记录间匹配次数的目标。其次,利用归属关联关系、交互关联关系以及时间顺序关系等多种语义关联关系相结合的方法来提高实体解析的准确率。根据多种语义关联关系结合时间顺序关系通过不断迭代处理的方式来捕获实体随着时间发生演化的情况,从而在较大程度上提高了实体解析的精度。最后,通过实验验证了本文所提算法确实获得较好的效果。
其他文献
该文采用CORBA中间件技术对配电管理系统中的图形子系统进行了研究与设计.文中针对配电管理系统中图形子系统与其它子系统之间存在跨平台、跨语言的问题,采用中间件技术构建
Internet宏观拓扑的演化是复杂网络理论研究的重要组成部分,受到了学者们的广泛关注,并在该领域取得了长足的发展。掌握宏观拓扑的演化规律,有助于理解其形成规律,建立更加符
电子商务网上交易的信息不对称性和风险导致了顾客对网上购物的不信任。如何提高消费者对卖方的信任已成为电子商务发展急需解决的问题。信任机制和信誉评价模型在促进交易双
随着Internet的飞速发展和广泛应用,大量的网络病毒已将Internet作为其一种主要的传播途径。其中利用电子邮件传播是最直接的方式。为了使邮件病毒的查杀工作对用户及邮件服务
该文回顾了传统的数据加密技术,研究了当前多媒体信息隐藏技术的发展状况,着重分析了图像空间域排列变换和频域变换的特点,找到了静态图像加密算法的加密原则—好的图像加密
主动实时数据库(ARTs-DBMS)完善地集成了传统数据库、实时系统及主动规则的技术与机制.主动实时数据库系统的高效性要求以内存数据库(MMDB)作为底层支持,论文以自行研制开发
随着计算机和网络的不断发展,各种数据大量地涌现,而这些数据中,很多是以混合形式出现,称为混合数据。混合数据通常由结构化数据和非结构化数据构成,其中非结构化数据主要以
传统的通用操作系统已无法满足当前硬实时、软实时和普通应用并存的要求。设计对各种应用提供统一支持的调度策略成为现代操作系统的研究热点。 本文对UNIX,Linux和WINDOWS
该文结合一个实际系统-济南市空气质量监控网络与预警系统的研究与开发,研究了基于地理信息系统(Geographic Information System,简称GIS))的环境管理信息系统,并根据环境空
随着Internet在全球的飞速发展,Internet应用越来越融入人们的日常生活。而用户之间的信任关系却越来越复杂,在原有信任模型——防火墙实施点内部都是可信的,其外部都是不可信的