基于同义实体识别的Web数据集成

被引量 : 0次 | 上传用户：sonim0

【摘要】

：

丰富的互联网信息资源使得信息获取变得容易,从Web信息中提取有价值的内容,加工,处理、融合为高质量的数据渐渐成为企业组建业务数据的重要方式。准确有效地集成海量Web信息,

【作者】

：

徐喆昊

【发表日期】

：

2015年期

【关键词】

：

Web信息集成同义实体识别相似度计算搜索引擎

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

丰富的互联网信息资源使得信息获取变得容易,从Web信息中提取有价值的内容,加工,处理、融合为高质量的数据渐渐成为企业组建业务数据的重要方式。准确有效地集成海量Web信息,也是Web信息动态聚合、市场情报分析、舆情分析、商业智能等分析型应用的重要基础。但是Web数据存在多源、海量、异构等问题,为集成带来了一定难度。而在Web数据集成过程中,由于数据来源不同、组织形式各异,因而存在了大量实体指代同一个实体的问题,即同义实体问题。同义实体问题的存在造成了集成系统中数据的大量冗余,不仅影响了最终生成的服务数据质量,同时还影响了用户的良好体验。因此,如何减少数据集成中的同义实体问题,是Web数据集成中面临的一大考验。(1)本文介绍了数据集成的相关背景和技术,重点包括：数据采集、数据抽取和数据融合。在数据融合部分着重介绍了同义实体识别领域的研究背景和研究现状。(2)本文提出了一种基于搜索引擎的相似度计算算法,利用搜索引擎返回的页面摘要信息(Snippet)计算命名实体之间的相似度,并通过相似度进一步实现了基于搜索引擎的同义实体识别算法FSE。本文利用现实世界采集的命名实体数据进行实验,与VarientDice等同样基于搜索引擎的相似度算法进行了对比试验。经过实验,FSE算法的F值达到了93.59%,高于其他对比算法中最高的VarientDice算法1.8%,高于最低的Varientjaccard算法3.15%。(3)本文设计了一种基于同义实体识别的Web信息集成框架,并将基于搜索引擎的命名实体识别算法应用到了Web数据集成框架当中。基于此框架,开发出了一套基于Web数据集成的农业信息集成系统——慧农信息系统。

其他文献

当戏剧遇上城市，如何以“戏剧之美”彰显“城市之蕴”

如何做到戏剧与城市的互联、互融?如何借助新媒体传播手段发掘戏剧之美、城市之蕴?11月20日,戏剧东城·第三届全国话剧展演季国际戏剧文化高端对话在北京东苑戏楼举行。

期刊

爱丁堡艺术节北京市东城区

浅析电视读报节目的流行——以《有报天天读》为个案的分析

近年来,随着信息技术的不断发展,新老媒体之间的竞争逐渐加剧,而这种竞争在分羹逐鹿的同时,还呈现出交流与融合的现象,其具体表现之一便是电视读报节目的流行。本文主要以《

期刊

电视读报节目《有报天天读》

上市公司利润操纵及其识别模式研究

文章界定了利润操纵的概念,归纳了利润操纵行为的主要特征,从现金指标、利润来源、不良资产比例、关联方占用四个方面建立了上市公司利润操纵识别模式。

期刊

上市公司利润操纵识别模式

靖南G68-16井小井眼钻井技术

G68-16井是靖南气田区块第1口φ206.4 mm小井眼试验井。针对该区块地层复杂地质特征,结合G68-16井小井眼钻井特点,优化钻具组合、优选钻头和螺杆型号,通过参数优化、钻井液性

期刊

小井眼钻井靖南气田

矿山企业财务风险防范

<正>一、矿山企业财务风险概述财务风险是指在日常财务活动中,由于各种难以预料或控制的因素影响,导致财务状况具有不确定性,使企业有可能蒙受损失。在市场经济条件下,财务风

期刊

矿山企业企业财务风险铁矿石价格应收账款

《枕草子》研究——从对香气的描写来探寻日本人的美意识

《枕草子》是平安中期的一部随笔,乃清少纳言所作。全书有三百多段,作者曾在宫中做侍奉皇后定子的女官。简洁新鲜的文体,充分表现出了作者明快理性的性格。《枕草子》与几乎

期刊

清少纳言《枕草子》香气美意识情趣

专利行政调解:比较优势与实现路径

转型期社会矛盾频发，司法解纷不堪重荷，多元纠纷解决机制的构建迫在眉睫，与传统诉讼相比，行政调解具有高效、便捷之优势，其在专利纠纷方面表现得更为突显。但由于认识的偏差与制度

期刊

专利行政调解调解社会管理创新专利法修改

美国国会对总统的监督制约——克林顿弹劾案后的思考

期刊

克林顿参议院监督制约

无线传感器网络中一种改进的DV-Hop定位算法

针对无线传感器网络中DV-Hop定位算法在未知节点到信标节点距离计算中的不足，提出了一种改进算法。该算法考虑了未知节点到信标节点路径中相邻三个节点A，B，C组成的夹角∠ABC对距

期刊

无线传感器网络定位算法普适计算分布式计算

别再为年终总结发愁了

<正>它出现在年终奖之前,它是额外的工作量,它被当作例行公事的形式主义,它是年终总结。在忙碌的职场中,总结的价值与意义被人冷落,仿佛它真的百无一用。这是我们今天的话题,

期刊

年终总结

基于同义实体识别的Web数据集成

其他学术论文