信息网络中的相似度搜索问题研究

被引量 : 3次 | 上传用户:filltang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实生活中存在各种类型的实体,实体之间的相互联系共同构成了大规模的、互联的、复杂的交互网络,这些网络被统称为信息网络。信息网络实体之间的链接关系蕴涵着丰富的语义信息,分析这些信息有助于发现更多有价值的潜在知识。随着信息网络逐渐呈现大规模化和复杂化,设计开发一种有效的软件程序去探索网络潜在数据结构显得更加必要。信息网络方面的研究工作涉及到很多领域,如聚类、社区挖掘、离群点检测、相似度搜索等。相似度搜索作为信息网络研究中的一个重要方向,在近年已经受到了广泛关注。对于给定的查询实体,相似度搜索的主要任务是研究如何从信息网络中找到top-k个最相似的实体。相似度搜索问题研究对于很多实际应用具有现实意义,如推荐系统、链接关系预测、近似查询等。传统相似度搜索方法依据网络全局信息计算实体相似度,需要很高的时间开销和存储开销,不适用于大规模信息网络,SimRank、 PSimRank、P-Rank等。具有X-Star模式的信息网络(简称X-Star网络)是一种重要类型的信息网络,在现实生活中越来越普遍。X-Star网络包括中心实体和属性实体,实体之间的链接关系包括中心实体之间的链接关系、中心实体与属性实体之间的链接关系。本文围绕X-Star网络中的相似度搜索问题展开研究。X-Star网络中的相似度搜索问题研究的主要任务是根据指定的查询(中心实体)找到top-k个最相似的中心实体。在X-Star网络中,相似的中心实体通常指向相似的属性实体或被相似的属性实体指向。基于这种直观意义,本文提出一种X-Star网络中的相似度搜索方案,针对相似度计算的效率和存储、在线查询处理的执行效率、相似度计算的精确度等几个方面存在的问题展开研究。本文主要研究工作概括如下:1.针对相似度计算的效率和存储问题,提出一种X-Star网络中的相似度计算模型(NetSim),解决了现有相似度计算模型中存在的计算效率低、存储开销大等问题。首先依据网络全局结构信息构建属性实体之间的链接关系,提出了属性网络构建算法。在属性网络基础上,通过借鉴SimRank基本思想计算属性实体相似度。结合属性实体相似度,提出了NetSim相似度计算模型,NetSim依据属性实体相似度计算中心实体相似度。在计算中心实体相似度时不需要物化所有网络实体之间的相似度,显著降低了相似度计算的时间开销和存储开销。在DBLP和Amazon两个数据集上做了大量的实验。实验结果显示,NetSim计算模型的时间开销和存储开销显著低于现有方法,并且具有很好的计算效果。2.针对在线查询处理的执行效率问题,提出一种X-Star网络中的top-k相似度搜索方法,显著降低在线查询处理的执行时间。首先提出了基于NetSim的在线查询处理基本算法(NetSim-baseline),分析了NetSim-baseline算法的时间复杂度,指出影响NetSim-baseline算法时间开销的主要因素。结合分析,提出了剪枝索引(Pruning-index),给出了剪枝索引构建算法。基于剪枝索引提出中心实体相似度近似计算公式,并提出一种基于NetSim的在线查询处理剪枝算法(NetSim-pruning)。对NetSim-pruning算法的相关性质进行了大量理论分析和证明,指出了NetSim-pruning精确度损失的理论上界。NetSim-pruning在保证精确度的前提下,显著降低了在线查询处理的时间开销。在DBLP和Amazo擞据集上的实验结果显示,NetSim-pruning算法的时间开销低,并且具有很好的查询效果。3.针对相似度计算的精确度问题,提出了一种信息网络中的相似度计算模型(E-Rank)。E-Rank计算模型的直观意义是:如果从两个实体出发能够到达共同的实体,那么这两个实体是相似的。E-Rank考虑了实体之间任意距离的相遇情况,同时强调了链接关系重要性,克服了现有方法存在的结构信息利用不充分和链接关系重要性考虑不足等问题。在Enron邮件网络和高能物理理论引文网络两个数据集上做了大量实验。实验结果显示,与现有相似度计算方法相比,E-Rank具有较高的精确度。结合E-Rank与NetSim,提出了一种新的中心实体相似度计算模型(ENetSim)。ENetSim在离线处理阶段采用E-Rank计算属性实体相似度,依据属性实体相似度计算中心实体相似度。在Amazon数据集上的实验结果显示,与NetSim相比,ENetSim提高了中心实体相似度计算结果的精确度。
其他文献
本文从3个方面探讨如何提高华裔子弟学习华文的兴趣:首先必须降低学生学习华文的难度,让学生听得明白,学得轻松;其次,必须增强教学的灵活性、趣味性,让学生学得生动活泼;再次
近年来液体化学品运输量不断增大,散装液化品泄漏事故时有发生,事故造成了巨大的经济损失和严重的环境污染。对渤海海域散装液化品泄漏事故进行风险评价及应急对策研究,可以预测
目的:比较单纯血液透析(HD)、血液透析联合血液透析滤过(HD+HDF)、高通量血液透析(HFHD)三种不同血液透析方式下尿毒症患者载脂蛋白C3(ApoC3)、C反应蛋白(CRP)、血脂等临床指标的不同变化
微博名誉权在本质上与传统的名誉权并无二致,只是由于微博的匿名性、即时性、共享性与自媒体性,使得传统的规制名誉侵权的法律在微博空间内遭受到了主体对接的困难性、构成要件
路桥过渡段是设计和施工中的薄弱环节,但长期以来,对采用哪种过渡段设置方法较为合理,至今仍未达成完全的共识。本论文针对金沙萨-马塔迪铁路位于DK185+331的工点,分析桥头跳
随着桥梁施工技术的完善,箱梁桥在国家基础建设中的应用越来越多,逐渐成为应用最广的桥型之一。大跨度的箱梁桥在沟连两地交通、促进民生、经济交流发展起着特别重大的作用。
随着中国大陆改革开放后,经济呈现两位数成长数十年,人们从得到温饱基础的生活物质要求阶段逐渐进化到生活质量追求阶段。根据马斯洛需求理论,当人们得以温饱,基本生理需求与
随着全球性区域经济的发展和很多国家对于自由贸易逐渐旺盛的需求,韩国也认识到FTA的重要性。在WTO多边贸易的基础下,在各个国家出现了FTA,RTA等区域经济一体化组织,韩国也受
针对建筑边坡混凝土喷锚施工技术进行分析,介绍了喷锚技术,结合这些内容,探讨了混凝土喷锚施工工艺,内容有:混凝土喷锚施工工艺过程,混凝土喷锚施工所用原材料,混凝土锚固支护
“巴洛克”是一个时代的代名词,也是一种风格的象征。作为歌者能够把握演唱风格的唯一途径就是认识文化现象,一位完美的歌唱家应当能够准确地表现不同时期的声乐作品。通过了解