论文部分内容阅读
大数据时代复杂网络的分析越来越重要。大数据带来的两个维度,一是量大,二是关联。前者表明数据已经越来越多,甚至可供总体分析;后者说明数据间关系越来越紧密,世界已经不再是数学假设中的单源、独立,复杂的链接日益凸显。网络结构中对象及其关系的分析在大数据时代也是面临着挑战和机遇。社交网络的蓬勃发展让研究人员从一个重要的侧面看清网络的重要性,推荐引擎、广告投放、兴趣图谱与社交图谱融合、内容聚合、推荐等都是复杂网络关系在社交网络中的展现。网络对象及其关系的分析也面临着严重的挑战。首先是网络结构繁杂,无法获得直观的认识。以淘宝网为例,淘宝双十一成交额350亿,在这种场景下,以“买家-卖家”关系构成的二部图复杂性可想而知。淘宝600万店铺,11亿种商品,以及2亿消费者构成的这种“买家-商品-卖家”的三边关系更是复杂。其次是网络中对象的属性存在大量问题,例如属性缺失和不实。基于隐私层面的考虑,很多网站都提供匿名化的服务,有些用户甚至填写虚假个人信息,或者有些数据没有收集到。这对进一步的数据分析带来了障碍。最后是大量数据、复杂连接导致传统的计算方法不能胜任,新的方法,大量数据需要优秀的技术架构支持。面对大数据时代复杂网络的上述挑战,本文对网络中对象及其关系进行分析,实现了网络中的属性预测方法以及大规模机器学习算法并行拆解和框架研究。具体如下:1.实现了属性预测方法。本文研究了传统分类器的预测方法,再到基于网络结构的随机游走算法,最后研究了属性预测与链接预测的共同学习方法。通过构造“属性-社会”网络,将属性预测问题映射为链接预测问题。本文使用了概率图模型的方法同时对属性和链接进行建模分析。通过对三种方法对比分析,发现属性与链接之间存在着很强的相关性,两者共同预测对两方都有提升作用。2.本文分析了机器学习算法加速方法的四个层次,即scale-up加速、scale-out加速、机器学习算法本身串行性突破,以及编程模型的考虑。本文在这四个层面进行分析,首先是NativeTask对MapReduce框架加速的可能,之后是编程模型和scale-out良好适配,最后着重进行了机器学习串行化优化算法到并行化算法的拆解,以及用于并行加速的异步计算。