基于异质信息网络的相似性度量研究

来源 :北京邮电大学 | 被引量 : 15次 | 上传用户:lywy0201
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学和网络技术的发展,社会网络分析在数据挖掘领域逐渐成为主流方向。当前的社会网络分析主要基于同质信息网络,即关系网络中结点或边具有相同的类型。然而,随着在线社交媒体、信息物理系统的大量出现,对象相互关联形成的复杂网络很难用同质信息网络描述,而是需要采用包含不同类型结点和边的异质信息网络建模。相比同质信息网络,异质信息网络具有更加复杂的网络结构和更加丰富的语义信息,在异质网络中进行社会网络分析可以发现更加精细准确的隐含知识。相似性度量,即评价两个对象的相关性,是聚类分析和其他很多数据挖掘任务的基础,是社会网络分析中必不可少的基本方法。本文以异质信息网络中的相似性度量为主要研究对象,通过对相似性度量方法及其相关任务的研究,深入分析了异质信息网络的异质对象处理和关系语义挖掘技术。本文首先通过分析现有的相似性度量算法的优势与不足,提出了一种基于元路径的新型相似性度量算法——AvgSim。该算法可以度量异质信息网络中任意结点对之间的相似度,同时度量具有对称性。通过与其它度量算法在真实数据集上的实验结果的比较,验证了AvgSim算法的有效性。其次,本文提出了AvgSim算法在海量数据下的快速计算方法。该方法应用动态规划策略以及并行分块矩阵乘法,实现了AvgSim在Hadoop平台上的并行化,并在大规模数据集上验证了并行AvgSim算法的高效性。最后,本文还提出了元路径的自动发现方法。该方法可以根据给定的目标结点对,在异质网络中自动地发现链接该结点对的元路径并度量其重要程度。在元路径自动发现方法的基础上进一步应用于知识图谱中的关系预测,并验证了方法的有效性。
其他文献
XMI 文档信息容量的增长、数据敏感程度的增加,对异构数据源集成系统提出了新的挑战,例如如何降低查询复杂度、提高查询效率、增强数据库文档信息的安全性。针对这些问题,本文采
软件生存周期包括问题分析、设计、实现、测试和维护等阶段。传统的面向对象开发方法在分析阶段采取面向客观世界的观点,而在设计阶段采取面向实现的计算机观点,因为二者之间的
本文围绕SP彩信业务平台的设计与实现进行展开,详细剖析整个SP彩信平台的结构、设计思想及实现原理。   SP彩信业务平台,通过与网络运营商的接口,接收移动终端用户上行的业务
学位
随着Web迅速普及,Web正经历从一个巨大的包罗万象的以提供信息为主旨的网页集合向提供需求不断变化的服务的集合的转变。人们不再只单纯的追求所需要的数据和信息或者知识,而把
学位
随着信息技术的飞速发展和高等院校研究生招生规模的逐渐扩大,传统行政管理方法已经远远不能适应新的业务发展需要。尤其是随着研究生招生机制改革的逐渐深入,运用信息处理技术
Skyline查询在多标准决策支持系统、数据挖掘及市场产品定位分析等诸多应用领域起着重要作用。该查询应用于数据流后,在城市导航系统等实时在线服务方面显示出广阔的发展前景
随着数据流管理系统的日益发展,如何确保系统安全成为开发者面临的重要问题之一。访问控制是确保系统安全的一个重要手段,它通过适当的访问权限管理来实现系统的信息和资源保护
性能是每个应用系统的基本质量属性,当性能指标无法达到用户需求时,需要对应用系统进行优化。随着软件复杂性的增加,以手工方式完成优化存在工作量大、易出错等缺点,为提高优化工
植物对人类生存和发展有着重要的作用,对植物进行分类识别可以更好的保护种类繁多的植物。随着信息技术发展,基于叶片图像的植物识别方法有了一定的研究和发展,可以弥补传统
基于拉曼散射的分布式光纤温度传感器自70年代诞生以来,以其优越的性能及巨大的应用领域而成为传感测量领域的研究热点。在需要进行大范围温度监测的应用场合,传统的电式传感