面向大规模图的多估测目标抽样技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:chenjianhao2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,数据分析系统需要处理的图规模呈爆炸式增长,使得系统的计算能力和存储能力面临严峻挑战。高效低误差的抽样技术能有效缩减待处理数据集的规模,同时保留原有数据集的主要特征,可用于可视化、查询、分析和社交网络影响力估测等,因而成为解决该挑战的重要途径。面向图的抽样技术分为两类:一类是通过产生边集样本来估测图特征的抽样技术,称为面向图边集的抽样技术;另一类是通过产生顶点集样本估测图特征的抽样技术,称为面向图顶点集的抽样技术。然而,现有的图抽样技术估测目标单一,且存在估测误差和开销大的问题,不能满足实际应用需求。针对这些问题,本文开展了以下创新性研究工作。
  提出了基于双采样机制的蓄水池抽样技术T-Sample(Triangle-based Reservoir Sampling)。该技术旨在解决现有面向图边集的抽样技术不能同时准确估测图中三角形总量和顶点度特征的问题。T-Sample中的双采样机制是指联合统一和非统一的蓄水池抽样技术共同产生边集样本。其中统一蓄水池抽样算法在时空开销小的前提下能准确估测三角形总量这一重要的图结构特征,而非统一蓄水池抽样算法用于维持原图中重要的链接关系,进而能准确估测顶点的度这一重要的图结构特征。实验证明,相比现有面向图边集的抽样技术,T-Sample在估测图中三角形总量时,准确率可提高50%,估测方差可降低56%,并且可获取图中占比99%以上的顶点度种类。
  提出了基于顶点团的随机游走抽样技术NCRW(Node Clique Random Walk)。该技术旨在解决现有面向图顶点集的抽样技术不能准确反映原图中顶点的多样性,同时估测图特征时误差大,而无法有效支撑图查询类应用的问题。现有随机游走抽样技术的核心步骤是从上一个样本点的邻居顶点获取下一个样本点,会频繁返回已抽样过的顶点,从而产生大量重复样本;又由于两个相邻样本互为邻居顶点,导致大量的相似样本。与现有随机游走抽样技术不同的是:NCRW采用从一个顶点团(顶点的最大完全子图)随机游走到另一个顶点团的方式遍历图。在遍历过程中,采用不返回策略避免产生重复样本,并通过扩大下一样本的选择空间来减少相似样本。因此,NCRW能获取没有重复且相似性少的样本,并且样本的实际分布与其期望分布相近。实验证明:在相同样本个数的情况下,相比现有的随机游走抽样技术, NCRW几乎不会产生重复样本且产生相似样本的比例下降10%以上,同时估测图的顶点度分布和聚集系数分布的平均误差分别降低10%和6.8%。
  提出了基于两阶邻居域的抽样技术2-Hopper。该技术旨在解决现有随机游走抽样技术由于不能同时准确估测图中顶点的个体属性和社会属性,而无法有效支持图分析类应用的问题。2-Hopper重新规划顶点到两阶邻居之间的路径,以减少图中顶点间大量的冗余路径,从而避免产生大量的重复样本,同时又有利于获取和分析顶点的社会属性;另外,提出一种递归算法用于在抽样过程中估测顶点的社会属性。实验证明:2-Hopper不仅能准确估测个体属性和社会属性,并且至少有89.9%的样本可用于分析这两类属性,用于分析图特征的样本比例相比现有随机游走抽样技术可提高25%。
  提出了双重随机游走抽样技术DRaWS(Dual Random Walk based Sampling)。该技术旨在解决现有随机游走技术的收敛时间长,且不能同时准确估测图中顶点和团的特征,而无法有效支撑社交网络影响力估测类应用的问题。图中有大量的由全链接关系的顶点构成的团,使得随机游走抽样技术在遍历时,很可能会陷入团中,从而增加抽样开销。另外,现有的抽样技术并不能区分顶点和团的抽样概率,导致不能准确估测这两类实体的特征。DRaWS利用图中顶点和团设计具有双重状态的步数机,进而反映顶点和团的不同抽样概率,同时利用图中的团构造超级结构缩短和减少抽样路径,以降低抽样开销。最后通过不同的抽样概率设计不同的估测算法以准确估测图中的这两类实体的结构特征。实验证明:DRaWS能减少抽样开销并提高估测准确度,相比现有的抽样技术,DRaWS估测的度和图中团特征的平均误差可分别降低26%和50%以上。
其他文献
【摘要】当前作文评价的相对滞后,已经成为制约作文教学的瓶颈。有效的评价是激发学生的作文兴趣的一条有效途径。针对当前的评价问题,主要对策有:(1)评价要体现激励性,(2)评价要体现新趋势,(3)评价内容要综合化,(4)评价方式要多样化,(5)评价主体要多元化。  【关键词】作文 教学 评价  【中图分类号】G633.3 【文献标识码】A 【文章编号】2095-3089(2014)09-0094-01
期刊
【摘要】说起歌剧作曲家,大家首先想到的是威尔第,跟威尔第同年出生的德国作曲家瓦格纳声誉虽比不上威尔第,但在歌剧的改革以及对后世的影响上,他的成就绝对是举世无双的。本文对歌剧创作的一代宗师——瓦格纳的生平以及艺术成就等方面进行详细的阐述。  【关键词】瓦格纳 歌剧改革 戏剧 主导动机 无终旋律 半音化和声  【中图分类号】J832 【文献标识码】A 【文章编号】2095-3089(2014)09-0
期刊
【摘要】语文课有效的阅读教学,就是在引导学生学习运用语言的同时,教会学生认识生活,思考人生,提升品性,净化心灵。从而达到“教”作文,就是教做人的教学目的。这也正是新教材所倡导的大语文观。  【关键词】阅读、教法、诵读、联想想象 创意  【中图分类号】G633.3 【文献标识码】A 【文章编号】2095-3089(2014)09-0101-01  新课程以全新的教育理念冲击着每位语文教师。阅读课究竟
期刊
【中图分类号】G623.2 【文献标识码】A 【文章编号】2095-3089(2014)09-0095-01  从教三十来年,一直从事小学班主任的教学工作,虽不能说有什么经验之谈,但还是有一些切身的体会,今天写出来和教育同行们探讨。从多年的语文教学中,我感觉作文教学一直是语文教学的难点,也是学生学习语文的重点。  我常听语文老师说:“学生的作文辅导真难!”可又经常听到学生们说:“作文难,难作文。”
期刊
【中图分类号】G633.3 【文献标识码】A 【文章编号】2095-3089(2014)09-0108-01  阅读能力是当今社会人们获得成功的基本条件,也是一个人未来成功从事各项工作的必备能力。因此,如何培养孩子的阅读兴趣、提高孩子的阅读能力成了一个教育的关注点。  语文“新课标”的“阅读教学建议”第四条中扼要阐述了如何“逐步培养学生探究性和创造性阅读能力”的新课题,其目标主要是想通过多角度、有
期刊
【摘要】提高英语学科教学质量,除了平时要扎扎实实开展好各项教学工作之外,还要切实抓好各阶段的复习备考工作。我和本组教师采用“重基础、巧练习、育能力”的日常教学复习策略;“攻击式” 期中快速复习策略;“扫荡式”、“攻击式”、“演练式” 并用的期末复习策略;依纲务本夯基础、精讲多练求实效、实战模拟促提高的中考复习策略,使我校的英语成绩在全县中考中名列前茅,使我所执教班级的英语成绩在全县英语教师中名列前
期刊
【摘要】初中生怕写作文,厌写作文,认为作文无材料可写成了初中语文教学一大症结,笔者以为以日记教学为突破口,重视学生日记写作的指导、批改、讲评,激发学生写日记兴趣,通过多写日记,可以达到积累素材、练习写作技巧、提高思想认识,从而爱好写作与提高写作水平的目的。  【关键词】日记 指导 作文教学  【中图分类号】G633.3 【文献标识码】A 【文章编号】2095-3089(2014)09-0091-0
期刊
【摘要】由2014年高考山东省英语试题改革不难看出考试更加注重基础。根据完形填空题型的命题依据:格式塔心理学以及对完形填空题型的认识与理解,对学生处理完形填空题型时所出现的症状做了了解、分析,寻找到适用于学生的方法,指明方向,与学生共同成长,共同进步。  【关键词】高考改革 完形填空 格式塔心理学 五不要 五有心人  【中图分类号】G633.41 【文献标识码】A 【文章编号】2095-3089(
期刊
随着互联网进一步蓬勃发展,社交网络、电子商务、网上银行等网站上每天都流通着亿级的企业和用户信息,网站本身存在的漏洞会导致敏感信息的泄露,因此网络漏洞扫描至关重要。
  通过对漏洞扫描技术进行调查分析,针对其中的爬取网页部分的URL去重和漏洞扫描部分展开优化,一方面本文通过采用FarmHash算法压缩结合布隆过滤器的方式进行URL去重,减小了时间和空间复杂度,提高了爬虫爬取的速度和漏洞扫描器的扫描速度。另一方面本文使用动态链接库和插件技术设计实现了漏洞扫描库,内置八十多个漏洞扫描插件,并支持用户自定义
点击率预估是推荐系统、搜索等应用场景中的核心问题,也是互联网广告投放效果的重要指标。现代互联网广告主要分为搜索广告和展示广告,其中搜索广告是规模最大的广告形式。以搜索场景为例,用户搜索关键词寻找目标,广告平台通过获取具有商业价值的关键词,结合点击率预估结果展现用户最可能点击的广告。因此良好点击率预估模型既可以带来好的用户体验,也能让广告平台达到收益最大化。
  通过研究近年来基于深度学习的点击率预估模型,发现现今存在的很多点击率预估模型在挖掘特征之间的交叉关系上存在不足,对特征重用度不高。基于此,结