并行LDA、聚类算法的研究及应用

来源 :南昌大学 | 被引量 : 0次 | 上传用户：langzi229229

【摘要】

：

随着互联网的飞速发展,社会进入了一个数据爆炸的时代。这些数据蕴含着大量的价值,如何从这些海量数据中挖掘出有价值的信息成为了当前的研究热点。面对海量的数据,传统的单

【作者】

：

万青云

【机构】

：

南昌大学

【出处】

：

南昌大学

【发表日期】

：

2016年期

【关键词】

：

Spark LDA 二分K均值词语相似度微博广告

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的飞速发展,社会进入了一个数据爆炸的时代。这些数据蕴含着大量的价值,如何从这些海量数据中挖掘出有价值的信息成为了当前的研究热点。面对海量的数据,传统的单机处理技术已经无法处理,因而人们开始寻求新的解决办法,云计算、大数据处理技术也就应运而生了。在众多的大数据处理技术中,Spark是近几年兴起的一种基于内存计算的并行计算框架。它的优势在于十分擅长进行交互式和迭代式计算,因而受到广泛的使用。本文在Spark框架上对机器学习、数据挖掘的方法作了并行化的设计。文中还涉及到词语相似度的计算,对计算方法作了一些改进。最后将这些方法应用到微博广告的投放中去,实现广告的定向投放。本文的研究工作可以分为以下四个方面:1.基于Spark框架,设计了LDA主题模型的并行化方法。在LDA模型中,采用吉布斯采样的方法对模型进行推导。通过对数据集的分割,将每个子数据集分配到集群中的各个节点进行并行运算,从而实现LDA模型的并行计算。2.对二分K均值算法进行改进并设计了基于Spark的并行算法。针对原有的算法在二分过程中,初始质心的选择速度存在不足,提出了采用极大距离点作为初始质心的二分K均值算法。改进后的算法,大大降低了运算时间。另外,本文在Spark框架下,作了改进后的二分K均值算法的并行化设计。3.对词语相似度计算方法做了改进。本文的词语相似度计算方法是基于How Net的,通过对How Net的研究,本文将对词语相似度计算方法进行改进,实验表明改进后的词语间相似度更符合人们日常的理解和认知。4.结合已得到的研究成果,设计了微博广告定向投放方案。具体的方法是利用本文第一、二部分提出的LDA、二分K均值并行算法从微博数据中挖掘出用户的兴趣,再利用本文第三部分提出的词语相似度计算方法对用户兴趣词与广告投放关键词进行相似度计算,选择出与用户兴趣最相似的广告投放给用户,从而实现广告的定向投放。

其他文献

基于ANFIS和数学建模方法的织物染色计算机配色应用研究

由于传统的织物染色配色方法费时费力,精确度不高,在研究自适应神经网络的模糊推理系统(Adaptive Network-based Fuzzy Inference System, ANFIS)理论及配色原理的基础上,本

学位

织物染色ANFIS数学建模PSO算法模拟退火算法

规则与统计相结合的音乐领域命名实体识别

音乐是人类史上一个永恒的主题,是人们情感的寄托和外化。随着互联网的不断发展,人们接触到的音乐信息更是层出不穷,如何从浩瀚的信息中获取感兴趣的内容是亟待解决的问题。

学位

命名实体识别音乐命名实体隐马尔科夫模型训练语料标注

基于界面设计模式的物探领域应用框架的设计与实现

随着计算机技术的飞速发展,开发一个系统软件会涉及越来越多方面的技术和问题,这使得在较短周期内开发出一个成熟的、稳健的软件产品的难度也越来越大。图形用户界面的开发在

学位

软件框架Qt界面设计模式

无线局域网WAPI协议安全机制研究

学位

基于高阶神经网络的文字识别算法研究

随着计算机的在各行业的广泛应用及人工智能的发展,文字识别作为一种能够提高办公效率的有效方法,被各行各业所重视,它倡导无纸化办公,使人们从繁重的文字录入劳动中解脱出来

学位

文字识别高阶神经网络特征提取预处理

AC-AP架构中CAPWAP协议的研究与开发

随着无线网络的不断发展，WLAN的组网方式发生了新的变化，商用模式也出现了新的发展趋势。集中式WLAN成为当前无线网络研究的热点，如何进行智能化网络配置管理以及集中式用户接入

学位

无线局域网无线接入控制器AC-AP架构CAPWAP协议

无线传感网络配置问题研究

由大量的集成有传感单元、信息处理单元和通信单元的无线传感节点所组成的无线传感网络，具有隐蔽性优良、组网迅速、结构灵活、分布范围不易受自然条件限制、成本低廉、精度高

学位

无线传感网络传感节点网络生命周期存储节点扫描覆盖

基于长短期记忆多维主题微博情感倾向性分析

随着互联网应用的快速发展,人们开始大量使用各种即时媒体技术实现快捷的信息交互。以微博为代表的社交媒体吸引着数以万计的用户,人们可随时随地通过微博表达自己真实的想法

学位

中文微博情感倾向分析长短期记忆多层多维模型主题标签

基于模糊技术的线条图形手绘自动教学

绘画是儿童教育中的重要环节,而线条图形绘制学习是小学生的必修美术课之一。为适应实际绘画的需要,将物体的形状用流畅的线条图形连接起来,随心所欲地表现出看到的和想到的

学位

线条图形手绘自动教学模糊结构识别质量评价

基于终端及网络侧的室内高精度定位方法研究

针对当前已有的基于Wi-Fi室内定位方法,由于定位环境的动态变换,如室内物件摆放位置的变化、无线网络环境的变化、人流量的变化等,存在难以在动态变化的环境下保持稳定的定位

学位

室内定位自适应性位置指纹网络侧定位

并行LDA、聚类算法的研究及应用

其他学术论文