论文部分内容阅读
随着互联网的飞速发展,社会进入了一个数据爆炸的时代。这些数据蕴含着大量的价值,如何从这些海量数据中挖掘出有价值的信息成为了当前的研究热点。面对海量的数据,传统的单机处理技术已经无法处理,因而人们开始寻求新的解决办法,云计算、大数据处理技术也就应运而生了。在众多的大数据处理技术中,Spark是近几年兴起的一种基于内存计算的并行计算框架。它的优势在于十分擅长进行交互式和迭代式计算,因而受到广泛的使用。本文在Spark框架上对机器学习、数据挖掘的方法作了并行化的设计。文中还涉及到词语相似度的计算,对计算方法作了一些改进。最后将这些方法应用到微博广告的投放中去,实现广告的定向投放。本文的研究工作可以分为以下四个方面:1.基于Spark框架,设计了LDA主题模型的并行化方法。在LDA模型中,采用吉布斯采样的方法对模型进行推导。通过对数据集的分割,将每个子数据集分配到集群中的各个节点进行并行运算,从而实现LDA模型的并行计算。2.对二分K均值算法进行改进并设计了基于Spark的并行算法。针对原有的算法在二分过程中,初始质心的选择速度存在不足,提出了采用极大距离点作为初始质心的二分K均值算法。改进后的算法,大大降低了运算时间。另外,本文在Spark框架下,作了改进后的二分K均值算法的并行化设计。3.对词语相似度计算方法做了改进。本文的词语相似度计算方法是基于How Net的,通过对How Net的研究,本文将对词语相似度计算方法进行改进,实验表明改进后的词语间相似度更符合人们日常的理解和认知。4.结合已得到的研究成果,设计了微博广告定向投放方案。具体的方法是利用本文第一、二部分提出的LDA、二分K均值并行算法从微博数据中挖掘出用户的兴趣,再利用本文第三部分提出的词语相似度计算方法对用户兴趣词与广告投放关键词进行相似度计算,选择出与用户兴趣最相似的广告投放给用户,从而实现广告的定向投放。