【摘 要】
:
建立Deep Web集成系统是目前的研究热点,但由于不同网站对同一实体的数据描述在表现形式上存在着差别,导致冗余信息多,给用户的查询带来不便。实体识别是Deep Web集成系统中
论文部分内容阅读
建立Deep Web集成系统是目前的研究热点,但由于不同网站对同一实体的数据描述在表现形式上存在着差别,导致冗余信息多,给用户的查询带来不便。实体识别是Deep Web集成系统中一个至关重要的环节,它的目的就是去掉结果中的重复数据,即降低数据的冗余度。本文主要对Deep Web数据集成中的实体识别进行了深入的研究。针对中文图书领域Deep Web实体识别,通过分析各个网站对图书信息的描述形式,发现不同的网上书店对同一本书的描述通常存在着差别,而对不同图书的描述又可能非常相近。由于上述情况的存在,本文提出了基于改进Jaccard系数和领域本体的Deep Web实体识别方法。在图书文本属性中,直接应用Jaccard系数进行计算,不能解决在文本属性中出现的某一属性值非常相近而其他各个属性都完全相同的情况。本文在实体识别的过程中对Jaccard系数进行了两点改进,一是为文本分词后的单词增加权重系数,二是字符串匹配时的包含关系用系数m来确定。利用改进Jaccard系数法计算文本相似度,能很好的解决上述情况。本文结合领域本体中的同义词库进行图书属性匹配,来解决作者属性中存在中英文以及出版社属性中存在简写的情况。由于各个属性在识别时所占的重要程度不同,所以本文利用层次分析法获得各个属性的权重,然后加权相加计算实体相似度,从而整合重复实体。实验表明,该方法对中文图书领域的DeepWeb实体识别具有较高的准确率。
其他文献
在关于下一代网络的研究工作中,四川省网络通信重点实验室针对Internet面临的高速交换、服务质量保障、安全性和移动性等问题,提出了单物理层用户数据交换平台体系结构网络SU
本课题以飞跃汽车百货连锁销售服务公司为研究背景,依据公司决策层的需求,分析和设计了适合公司决策支持的数据仓库逻辑模型和物理结构,并对数据抽取、转换、装载(ETL)和数据
随着智能终端的普及,各种基于位置服务的应用层出不穷,这些应用对定位的要求越来越高。在复杂的室内环境中,如何快速准确获取终端位置信息,已经成为定位研究的重点。基于WIFI
近年来,随着计算机视觉的发展,图像信息在人们的工作和生活中扮演着越来越重要的角色。而从图像中提取感兴趣的区域的图像分割技术对于图像信息的理解与分析又起着至关重要的
近年来随着科技的不断进步,移动计算和无线通信技术得到了迅速发展。与此同时,人们对移动通信技术的要求也越来越高。目前,有两种不同移动网络的配置方式:基于基础设施(例如基
时间序列数据分布广泛,长期以来,不同领域时间序列数据大量积累,对时间序列的数据挖掘逐渐得到关注。本文以公共的股票数据组成的时间序列数据作为研究对象,将时间序列数据的
支持向量机(Support Vector Machine, S VM)是建立在统计学理论基础上的一种机器学习方法,其拥有坚实的理论基础。它在解决小样本、高纬度、非线性模式识别学习问题中有较多
嵌入式技术的发展使嵌入式GIS成为信息技术领域的研究热点,特别是与GPS技术结合后,极大方便了人们的生产和生活。本系统将嵌入式GIS技术应用于国土资源调查、林业资源管理,特
Ad hoc网络是由多个结点组成的临时性的移动自组织网络(MANET:MobileAd hoc NETworks)。传统Ad hoc网络广泛应用于军事战场、紧急事件的拯救行动、临时会议等场景中。随着Ad h
嵌入式系统是促进信息化与工业化融合的核心技术,是信息技术中发展最快、应用最广的技术。嵌入式系统技术的发展,正在成为中国嵌入式系统产业发展和带动IT产业发展的新增长点。