基于网络中对象关系的信息检索和结构分析及其应用

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:AdamMYS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代复杂网络的分析越来越重要。大数据带来的两个维度,一是量大,二是关联。前者表明数据已经越来越多,甚至可供总体分析;后者说明数据间关系越来越紧密,世界已经不再是数学假设中的单源、独立,复杂的链接日益凸显。网络结构中对象及其关系的分析在大数据时代也是面临着挑战和机遇。社交网络的蓬勃发展让研究人员从一个重要的侧面看清网络的重要性,推荐引擎、广告投放、兴趣图谱与社交图谱融合、内容聚合、推荐等都是复杂网络关系在社交网络中的展现。网络对象及其关系的分析也面临着严重的挑战。首先是网络结构繁杂,无法获得直观的认识。以淘宝网为例,淘宝双十一成交额350亿,在这种场景下,以“买家-卖家”关系构成的二部图复杂性可想而知。淘宝600万店铺,11亿种商品,以及2亿消费者构成的这种“买家-商品-卖家”的三边关系更是复杂。其次是网络中对象的属性存在大量问题,例如属性缺失和不实。基于隐私层面的考虑,很多网站都提供匿名化的服务,有些用户甚至填写虚假个人信息,或者有些数据没有收集到。这对进一步的数据分析带来了障碍。最后是大量数据、复杂连接导致传统的计算方法不能胜任,新的方法,大量数据需要优秀的技术架构支持。面对大数据时代复杂网络的上述挑战,本文对网络中对象及其关系进行分析,实现了网络中的属性预测方法以及大规模机器学习算法并行拆解和框架研究。具体如下:1.实现了属性预测方法。本文研究了传统分类器的预测方法,再到基于网络结构的随机游走算法,最后研究了属性预测与链接预测的共同学习方法。通过构造“属性-社会”网络,将属性预测问题映射为链接预测问题。本文使用了概率图模型的方法同时对属性和链接进行建模分析。通过对三种方法对比分析,发现属性与链接之间存在着很强的相关性,两者共同预测对两方都有提升作用。2.本文分析了机器学习算法加速方法的四个层次,即scale-up加速、scale-out加速、机器学习算法本身串行性突破,以及编程模型的考虑。本文在这四个层面进行分析,首先是NativeTask对MapReduce框架加速的可能,之后是编程模型和scale-out良好适配,最后着重进行了机器学习串行化优化算法到并行化算法的拆解,以及用于并行加速的异步计算。
其他文献
近年来,通过1a型超新星,宇宙微波背景辐射各向异性探测器和宇宙大尺度结构等天文观测可知,当前我们的宇宙正在加速膨胀,宇宙为什么加速膨胀的问题,已经成为目前宇宙学研究的热门的
有限温度场论是处理高温度、高密度下物质性质问题的基本理论。它涉及的物理现象非常丰富,涵盖了核物理、粒子物理、天体物理、凝聚态物理和宇宙学等不同的领域。例如,白矮星中
抗坏血酸过氧化物酶(Ascorbate Peroxidase, APX, EC1.11.1.11)又称维生素C过氧化物酶,是植物细胞中防御外界氧化胁迫与进行自身活性氧代谢的重要抗氧化酶类,也是理解过氧化物
随着物种基因组测序的完成以及大量生物学数据的产生,基因组规模代谢网络模型已经成为系统生物学不可或缺的研究工具。而模型构建的速度远远跟不上测序的速度,造成这种情况的原
我们在论文中主要研究了引力系统的临界热性质以及以黑洞热力学为基础如何计算对偶流体输运系数的问题。以(n+1)维Reissner-Nordstrom Anti-de Sitter黑洞为背景,分别通过两
人类对大自然的影响分为三个层面——局部,区域以及全球,这些问题纵横交错出现在现代社会中。当前形势出现的主要原因是由于在地理信息系统中不合理的人为干预以及违反它们相互
地物光谱是遥感技术的理论基础,自然存在的地物由于原子分子振动等复杂的相互作用在有些特定的波段对电磁波的响应不同,从而决定了地物光谱反射曲线的不同,可能会出现“同物
基因在转录前首先需要DNA的裸露。大鼠肝再生涉及许多基因的转录,了解DNA裸露位点与大鼠肝再生中基因转录的相关性非常必要。为此,本文对大鼠肝再生中DNA裸露与基因转录的相
连续运行参考站系统作为GPS发展应用的热点,它相对于传统测量方法有许多优点,能够在很大程度上提高测绘工作的效率。但是由于GPS测量获取的坐标属于WGS-84坐标系统,高程是相
二能级系统(量子比特)在量子计算,量子信息科学,凝聚态物理,乃至量子生物学等有关研究密切相关,引起广泛关注。近年来,二能级原子与腔场耦合系统的动力学研究在理论和实验上