基于异构开放数据源的实体匹配

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:lillian0606
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着"互联网+"行动计划的推进,各行各业的信息化程度越来越高,这些互联网平台都成为感知用户行为的"社会传感器"。综合各个"社会传感器"感知的用户行为,可以分析和预测用户行为、偏好和需求,从而缓解当前我国宏观经济中供需双方间的矛盾。然而,当前互联网平台上的数据呈现出碎片化特征,具体表现出零散、多重、低质、异构和相依等特征。因此,唯有匹配、关联和拼接碎片化的数据才能真正体现互联网平台作为"社会传感器"的作用,这正是本文开展实体匹配研究的动因。实体匹配作为数据管理、信息检索、机器学习等多个领域的关键问题,其早期的研究工作甚至可以追溯到上世纪40年代。经过大半个世纪的发展,实体匹配技术已被广泛应用于诸如数据集成、知识获取和用户画像等领域。由于Web2.0时代数据的碎片化特征,致使实体匹配成为一项非常具有挑战的任务,因此它依然是近年来学术界和工业界的研究热点。本文针对互联网开放数据呈现出的零散、多重、低质、异构和相依等特征,提出了:(1)基于社交网络结构的节点匹配算法;(2)面向多个异构数据源的实体匹配算法;(3)跨异构社交网络的半监督用户匹配算法。主要贡献包括以下几个方面:1.基于社交网络结构的节点匹配算法:出于人们对隐私安全的日益重视,本文研究了仅基于社交网络结构的节点匹配问题,综合考虑社交网络中节点所具备的海量、低质和相依等特征,设计并实现了 ANUM算法。本文利用少量标注的匹配用户实现用户分块,从而降低候选匹配用户集的大小;扩展Fellei-Sunter方法,使其能够处理连续分布的社交网络相似度,构建生成概率模型并运用EM算法学习参数,并同时处理数据缺失等数据质量问题。最后,在真实社交网络数据集上验证了ANUM算法的有效性和高效性。2.面向多个异构数据源的实体匹配算法:大多数已有的研究成果仅关注两个不同数据源的匹配,针对多个数据源中的实体匹配还尚待进一步研究。针对互联网平台数据的海量、异构和低质等特征,本文研究了多个数据源中的实体匹配问题,提出了多数据源实体匹配EMAD算法。为了降低候选集数量,该算法采用局部敏感哈希对来自不同数据源的实体进行分块,大大降低候选集的数量;将多数据源中实体匹配问题转化为两个数据源中实体匹配的问题,同时利用指数族分布整合实体异构属性,利用EM算法学习生成概率模型中的参数,不仅保证了算法的收敛性,而且同时可以处理数据缺失等数据质量问题。最后,在三个真实数据集上验证了EMAD算法的有效性和高效性。3.跨异构社交网络的半监督用户匹配算法:已知的匹配用户有利于改进社交网络中用户匹配的精度,但由于隐私保护和数据不均衡的原因,可用于训练模型的匹配用户数量并不多。针对海量、异构、低质和相依的社交网络数据,本文基于少量匹配用户,研究了半监督的异构社交网络用户匹配问题。为了降低候选匹配用户集的规模,该算法采用两阶段分块策略,第一阶段采用局部敏感哈希对来自不同社交网络的用户进行分块,且在每次迭代中通过社交网络结构再次对用户进行分块(第二阶段分块),大大降低候选集的数量;基于部分匹配用户,研究了跨社交网络平台的用户相似度评价方法;利用指数族分布整合用户异构属性从而构建生成概率模型,运用EM算法学习生成概率模型中的参数,并同时处理数据缺失等数据质量问题。最后,在真实社交网络数据集上验证了 CSUI算法的有效性和高效性。4.基于实体匹配方法的社交网络用户匹配和查询原型系统:在充分考虑互联网数据海量、异构、低质和相依等特征的基础上,本文设计了社交网络用户匹配的原型框架,并实现了SmnQ原型系统。依次详细介绍了SumQ的四层系统架构:数据获取、用户匹配、用户管理和用户界面以及所提供的三大服务:查询服务、可视化服务和匹配服务。以此证明我们的方法是一套完整、有效的解决方案。综上所述,本文充分考虑互联网数据海量、异构、低质和相依等特征,重点研究了基于社交网络结构的节点匹配问题、多个异构数据源间的实体匹配问题和半监督的社交网络用户匹配问题,并设计开发了SumQ原型系统。理论分析和实验结果都表明,我们提出的这些算法能够应对Web 2.0时代数据的海量性、异构性、低质性和相依性等特点,从而解决开放互联网上的实体匹配问题。
其他文献
随着环保标准的不断提高以及行业技术的革新,太钢以实现环境保护卓越绩效水平为阶段性目标,持续开展烧结系统超低排放技术研究与生产实践工作。通过对系统进行技术改进和装备
社会网络因为其结构复杂,用户行为各异,用户各种活动产生的数据量巨大,因此,对其的研究充满了挑战。正因为如此,也吸引了各方研究人员的注意,取得了丰富的研究成果。但是,在
在可用网络服务盛行的今天,网络服务标榜在组织内和组织间使用公共服务描述语言进行注册,基于用户功能性和非功能性需求的服务质量(QoS)必须被推广。然而,最常见的注册和服务
因特网在经历了几十年的辉煌之后遇到了发展瓶颈。随着大量协议及应用的加入,网络设备的功能越来越复杂,软件越来越庞大,再加上软硬件高度耦合且封闭的设备架构,网络创新变得
面对市场经济新形势的严峻挑战 ,如何寻找一条适合本校实际情况的发展道路 ,建立一条高效率的运转机制以促进学校发展已成为一个不容忽视的问题。本文就机制运转的内部协调性
目的比较研究口腔炎喷雾剂与康复新口服液治疗口腔溃疡的效果。方法选取我院110例(2015年4月17日到2017年4月17日)口腔溃疡患者为本次的研究对象,采用随机分组原则将其分为对
挡土墙是用于阻止土壤变形、坍塌的一种建筑物,在岩土工程中被广泛应用。水工挡土墙是在有水工况下的一种特殊形态的挡土墙结构,在设计原理上与普通挡土墙一致。这类水工挡土
针对当前电子商务环境中信任关系难以建立、计算的信任值不准确、对影响信任的多种因素进行科学合理的权重分配以及电子商务交易环境(互联网)和工具(软件)的安全可靠性问题等
近年来,P2P网络因具有自组织和分布式的特性,以及能够充分利用Internet中的大量计算能力和共享资源而得到快速发展。基于簇结构的P2P网络针对不同节点的行为特点和计算能力等