基于同义实体识别的Web数据集成

被引量 : 0次 | 上传用户:sonim0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
丰富的互联网信息资源使得信息获取变得容易,从Web信息中提取有价值的内容,加工,处理、融合为高质量的数据渐渐成为企业组建业务数据的重要方式。准确有效地集成海量Web信息,也是Web信息动态聚合、市场情报分析、舆情分析、商业智能等分析型应用的重要基础。但是Web数据存在多源、海量、异构等问题,为集成带来了一定难度。而在Web数据集成过程中,由于数据来源不同、组织形式各异,因而存在了大量实体指代同一个实体的问题,即同义实体问题。同义实体问题的存在造成了集成系统中数据的大量冗余,不仅影响了最终生成的服务数据质量,同时还影响了用户的良好体验。因此,如何减少数据集成中的同义实体问题,是Web数据集成中面临的一大考验。(1)本文介绍了数据集成的相关背景和技术,重点包括:数据采集、数据抽取和数据融合。在数据融合部分着重介绍了同义实体识别领域的研究背景和研究现状。(2)本文提出了一种基于搜索引擎的相似度计算算法,利用搜索引擎返回的页面摘要信息(Snippet)计算命名实体之间的相似度,并通过相似度进一步实现了基于搜索引擎的同义实体识别算法FSE。本文利用现实世界采集的命名实体数据进行实验,与VarientDice等同样基于搜索引擎的相似度算法进行了对比试验。经过实验,FSE算法的F值达到了93.59%,高于其他对比算法中最高的VarientDice算法1.8%,高于最低的Varientjaccard算法3.15%。(3)本文设计了一种基于同义实体识别的Web信息集成框架,并将基于搜索引擎的命名实体识别算法应用到了Web数据集成框架当中。基于此框架,开发出了一套基于Web数据集成的农业信息集成系统——慧农信息系统。
其他文献
如何做到戏剧与城市的互联、互融?如何借助新媒体传播手段发掘戏剧之美、城市之蕴?11月20日,戏剧东城·第三届全国话剧展演季国际戏剧文化高端对话在北京东苑戏楼举行。
近年来,随着信息技术的不断发展,新老媒体之间的竞争逐渐加剧,而这种竞争在分羹逐鹿的同时,还呈现出交流与融合的现象,其具体表现之一便是电视读报节目的流行。本文主要以《
文章界定了利润操纵的概念,归纳了利润操纵行为的主要特征,从现金指标、利润来源、不良资产比例、关联方占用四个方面建立了上市公司利润操纵识别模式。
G68-16井是靖南气田区块第1口φ206.4 mm小井眼试验井。针对该区块地层复杂地质特征,结合G68-16井小井眼钻井特点,优化钻具组合、优选钻头和螺杆型号,通过参数优化、钻井液性
<正>一、矿山企业财务风险概述财务风险是指在日常财务活动中,由于各种难以预料或控制的因素影响,导致财务状况具有不确定性,使企业有可能蒙受损失。在市场经济条件下,财务风
《枕草子》是平安中期的一部随笔,乃清少纳言所作。全书有三百多段,作者曾在宫中做侍奉皇后定子的女官。简洁新鲜的文体,充分表现出了作者明快理性的性格。《枕草子》与几乎
转型期社会矛盾频发,司法解纷不堪重荷,多元纠纷解决机制的构建迫在眉睫,与传统诉讼相比,行政调解具有高效、便捷之优势,其在专利纠纷方面表现得更为突显。但由于认识的偏差与制度
针对无线传感器网络中DV-Hop定位算法在未知节点到信标节点距离计算中的不足,提出了一种改进算法。该算法考虑了未知节点到信标节点路径中相邻三个节点A,B,C组成的夹角∠ABC对距
<正>它出现在年终奖之前,它是额外的工作量,它被当作例行公事的形式主义,它是年终总结。在忙碌的职场中,总结的价值与意义被人冷落,仿佛它真的百无一用。这是我们今天的话题,
期刊