论文部分内容阅读
随着"互联网+"行动计划的推进,各行各业的信息化程度越来越高,这些互联网平台都成为感知用户行为的"社会传感器"。综合各个"社会传感器"感知的用户行为,可以分析和预测用户行为、偏好和需求,从而缓解当前我国宏观经济中供需双方间的矛盾。然而,当前互联网平台上的数据呈现出碎片化特征,具体表现出零散、多重、低质、异构和相依等特征。因此,唯有匹配、关联和拼接碎片化的数据才能真正体现互联网平台作为"社会传感器"的作用,这正是本文开展实体匹配研究的动因。实体匹配作为数据管理、信息检索、机器学习等多个领域的关键问题,其早期的研究工作甚至可以追溯到上世纪40年代。经过大半个世纪的发展,实体匹配技术已被广泛应用于诸如数据集成、知识获取和用户画像等领域。由于Web2.0时代数据的碎片化特征,致使实体匹配成为一项非常具有挑战的任务,因此它依然是近年来学术界和工业界的研究热点。本文针对互联网开放数据呈现出的零散、多重、低质、异构和相依等特征,提出了:(1)基于社交网络结构的节点匹配算法;(2)面向多个异构数据源的实体匹配算法;(3)跨异构社交网络的半监督用户匹配算法。主要贡献包括以下几个方面:1.基于社交网络结构的节点匹配算法:出于人们对隐私安全的日益重视,本文研究了仅基于社交网络结构的节点匹配问题,综合考虑社交网络中节点所具备的海量、低质和相依等特征,设计并实现了 ANUM算法。本文利用少量标注的匹配用户实现用户分块,从而降低候选匹配用户集的大小;扩展Fellei-Sunter方法,使其能够处理连续分布的社交网络相似度,构建生成概率模型并运用EM算法学习参数,并同时处理数据缺失等数据质量问题。最后,在真实社交网络数据集上验证了ANUM算法的有效性和高效性。2.面向多个异构数据源的实体匹配算法:大多数已有的研究成果仅关注两个不同数据源的匹配,针对多个数据源中的实体匹配还尚待进一步研究。针对互联网平台数据的海量、异构和低质等特征,本文研究了多个数据源中的实体匹配问题,提出了多数据源实体匹配EMAD算法。为了降低候选集数量,该算法采用局部敏感哈希对来自不同数据源的实体进行分块,大大降低候选集的数量;将多数据源中实体匹配问题转化为两个数据源中实体匹配的问题,同时利用指数族分布整合实体异构属性,利用EM算法学习生成概率模型中的参数,不仅保证了算法的收敛性,而且同时可以处理数据缺失等数据质量问题。最后,在三个真实数据集上验证了EMAD算法的有效性和高效性。3.跨异构社交网络的半监督用户匹配算法:已知的匹配用户有利于改进社交网络中用户匹配的精度,但由于隐私保护和数据不均衡的原因,可用于训练模型的匹配用户数量并不多。针对海量、异构、低质和相依的社交网络数据,本文基于少量匹配用户,研究了半监督的异构社交网络用户匹配问题。为了降低候选匹配用户集的规模,该算法采用两阶段分块策略,第一阶段采用局部敏感哈希对来自不同社交网络的用户进行分块,且在每次迭代中通过社交网络结构再次对用户进行分块(第二阶段分块),大大降低候选集的数量;基于部分匹配用户,研究了跨社交网络平台的用户相似度评价方法;利用指数族分布整合用户异构属性从而构建生成概率模型,运用EM算法学习生成概率模型中的参数,并同时处理数据缺失等数据质量问题。最后,在真实社交网络数据集上验证了 CSUI算法的有效性和高效性。4.基于实体匹配方法的社交网络用户匹配和查询原型系统:在充分考虑互联网数据海量、异构、低质和相依等特征的基础上,本文设计了社交网络用户匹配的原型框架,并实现了SmnQ原型系统。依次详细介绍了SumQ的四层系统架构:数据获取、用户匹配、用户管理和用户界面以及所提供的三大服务:查询服务、可视化服务和匹配服务。以此证明我们的方法是一套完整、有效的解决方案。综上所述,本文充分考虑互联网数据海量、异构、低质和相依等特征,重点研究了基于社交网络结构的节点匹配问题、多个异构数据源间的实体匹配问题和半监督的社交网络用户匹配问题,并设计开发了SumQ原型系统。理论分析和实验结果都表明,我们提出的这些算法能够应对Web 2.0时代数据的海量性、异构性、低质性和相依性等特点,从而解决开放互联网上的实体匹配问题。