并行LDA、聚类算法的研究及应用

来源 :南昌大学 | 被引量 : 0次 | 上传用户:langzi229229
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,社会进入了一个数据爆炸的时代。这些数据蕴含着大量的价值,如何从这些海量数据中挖掘出有价值的信息成为了当前的研究热点。面对海量的数据,传统的单机处理技术已经无法处理,因而人们开始寻求新的解决办法,云计算、大数据处理技术也就应运而生了。在众多的大数据处理技术中,Spark是近几年兴起的一种基于内存计算的并行计算框架。它的优势在于十分擅长进行交互式和迭代式计算,因而受到广泛的使用。本文在Spark框架上对机器学习、数据挖掘的方法作了并行化的设计。文中还涉及到词语相似度的计算,对计算方法作了一些改进。最后将这些方法应用到微博广告的投放中去,实现广告的定向投放。本文的研究工作可以分为以下四个方面:1.基于Spark框架,设计了LDA主题模型的并行化方法。在LDA模型中,采用吉布斯采样的方法对模型进行推导。通过对数据集的分割,将每个子数据集分配到集群中的各个节点进行并行运算,从而实现LDA模型的并行计算。2.对二分K均值算法进行改进并设计了基于Spark的并行算法。针对原有的算法在二分过程中,初始质心的选择速度存在不足,提出了采用极大距离点作为初始质心的二分K均值算法。改进后的算法,大大降低了运算时间。另外,本文在Spark框架下,作了改进后的二分K均值算法的并行化设计。3.对词语相似度计算方法做了改进。本文的词语相似度计算方法是基于How Net的,通过对How Net的研究,本文将对词语相似度计算方法进行改进,实验表明改进后的词语间相似度更符合人们日常的理解和认知。4.结合已得到的研究成果,设计了微博广告定向投放方案。具体的方法是利用本文第一、二部分提出的LDA、二分K均值并行算法从微博数据中挖掘出用户的兴趣,再利用本文第三部分提出的词语相似度计算方法对用户兴趣词与广告投放关键词进行相似度计算,选择出与用户兴趣最相似的广告投放给用户,从而实现广告的定向投放。
其他文献
由于传统的织物染色配色方法费时费力,精确度不高,在研究自适应神经网络的模糊推理系统(Adaptive Network-based Fuzzy Inference System, ANFIS)理论及配色原理的基础上,本
音乐是人类史上一个永恒的主题,是人们情感的寄托和外化。随着互联网的不断发展,人们接触到的音乐信息更是层出不穷,如何从浩瀚的信息中获取感兴趣的内容是亟待解决的问题。
随着计算机技术的飞速发展,开发一个系统软件会涉及越来越多方面的技术和问题,这使得在较短周期内开发出一个成熟的、稳健的软件产品的难度也越来越大。图形用户界面的开发在
学位
随着计算机的在各行业的广泛应用及人工智能的发展,文字识别作为一种能够提高办公效率的有效方法,被各行各业所重视,它倡导无纸化办公,使人们从繁重的文字录入劳动中解脱出来
随着无线网络的不断发展,WLAN的组网方式发生了新的变化,商用模式也出现了新的发展趋势。集中式WLAN成为当前无线网络研究的热点,如何进行智能化网络配置管理以及集中式用户接入
由大量的集成有传感单元、信息处理单元和通信单元的无线传感节点所组成的无线传感网络,具有隐蔽性优良、组网迅速、结构灵活、分布范围不易受自然条件限制、成本低廉、精度高
随着互联网应用的快速发展,人们开始大量使用各种即时媒体技术实现快捷的信息交互。以微博为代表的社交媒体吸引着数以万计的用户,人们可随时随地通过微博表达自己真实的想法
绘画是儿童教育中的重要环节,而线条图形绘制学习是小学生的必修美术课之一。为适应实际绘画的需要,将物体的形状用流畅的线条图形连接起来,随心所欲地表现出看到的和想到的
针对当前已有的基于Wi-Fi室内定位方法,由于定位环境的动态变换,如室内物件摆放位置的变化、无线网络环境的变化、人流量的变化等,存在难以在动态变化的环境下保持稳定的定位