论文部分内容阅读
丰富的互联网信息资源使得信息获取变得容易,从Web信息中提取有价值的内容,加工,处理、融合为高质量的数据渐渐成为企业组建业务数据的重要方式。准确有效地集成海量Web信息,也是Web信息动态聚合、市场情报分析、舆情分析、商业智能等分析型应用的重要基础。但是Web数据存在多源、海量、异构等问题,为集成带来了一定难度。而在Web数据集成过程中,由于数据来源不同、组织形式各异,因而存在了大量实体指代同一个实体的问题,即同义实体问题。同义实体问题的存在造成了集成系统中数据的大量冗余,不仅影响了最终生成的服务数据质量,同时还影响了用户的良好体验。因此,如何减少数据集成中的同义实体问题,是Web数据集成中面临的一大考验。(1)本文介绍了数据集成的相关背景和技术,重点包括:数据采集、数据抽取和数据融合。在数据融合部分着重介绍了同义实体识别领域的研究背景和研究现状。(2)本文提出了一种基于搜索引擎的相似度计算算法,利用搜索引擎返回的页面摘要信息(Snippet)计算命名实体之间的相似度,并通过相似度进一步实现了基于搜索引擎的同义实体识别算法FSE。本文利用现实世界采集的命名实体数据进行实验,与VarientDice等同样基于搜索引擎的相似度算法进行了对比试验。经过实验,FSE算法的F值达到了93.59%,高于其他对比算法中最高的VarientDice算法1.8%,高于最低的Varientjaccard算法3.15%。(3)本文设计了一种基于同义实体识别的Web信息集成框架,并将基于搜索引擎的命名实体识别算法应用到了Web数据集成框架当中。基于此框架,开发出了一套基于Web数据集成的农业信息集成系统——慧农信息系统。