基于C-LDA的微博推荐算法

来源 :新疆大学 | 被引量 : 0次 | 上传用户:youshouyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为新兴的网络社交媒介,以其开放互动的特性迅速赢得了大量用户的青睐。随着注册用户数量和微博文本信息爆炸式的增长,如何帮助用户获取感兴趣的信息成为亟需解决的问题。在文本挖掘算法中,隐含狄利特雷分布算法(LDA,Latent Dirichlet Allocation)是一种无监督的文档主题生成模型,将文档视为由不同主题按比例组成的主题概率向量,可以很好的解决微博主题多样性的问题。但是LDA模型不适应微博文本短小、互动性高以及时效性强的特点,针对此问题,本文对LDA三层贝叶斯模型以及训练LDA模型的吉布斯采样算法做出如下几点改进。(1)考虑关注与转发等社交互动行为对主题概率向量产生的影响,提出C-LDA四层贝叶斯模型。(2)利用微博的转发评论数据改进基于时间线的词汇热度算法。(3)基于艾宾浩斯遗忘曲线,计算随着时间推移微博权重的变化。(4)综合词汇热度、微博权重以及负样本反馈因素改进吉布斯采样算法,使之更加精确的训练C-LDA模型。单机吉布斯采样程序在计算大规模数据时的时间复杂度很高。本文基于MapReduce框架实现了吉布斯采样算法以及词汇热度算法的分布式处理,提高了算法的性能和伸缩性。实验结果表明,C-LDA算法的Perplexity值相较于传统的LDA算法降低了9.45%。基于C-LDA算法的Top-10推荐结果相较于RT-LDA算法准确率提高了11.23%,召回率提高了14.56%,F值提高了12.53%。在5个节点的集群上分布式处理任务的时间比单机减少了68%。
其他文献
网格为科学研究和工程应用中的大规模问题求解提供了一种理想的计算平台。网格资源的异构、分布、动态及自治特点,使得资源管理问题充满挑战。网格资源管理方法和技术研究成
问答系统是信息检索系统的一种高级形式。它与传统搜索引擎不同,它允许用户用自然语言进行提问,并给用户返回确切的答案,而不是返回一系列相关链接。随着自然语言处理的研究,
随着网络技术和信息家电的飞速发展,互联网用户和智能家电数目地不断增长促进了家庭网络的数目迅速增加,将传统家居中原本独立的设备与功能相整合,构建一个功能强大、操作个
网格技术为基于动态、异构和跨域的协同资源共享与问题求解提供了新的解决方法,通过网格对大量廉价的计算资源、存储资源等进行整合,在提高计算效率的同时,大大降低了处理成
模糊测试是一种自动或半自动的发现软件故障的方法,具有可用性好、自动化程度高、误报率低、对目标程序源码没有依赖的优点。模糊测试如今已经成为漏洞挖掘的一门相当有效的技
计算机支持的协作学习CSCL (Computer-Supported Collaborative Learning)是指利用计算机技术(尤其是多媒体和网络技术)来辅助和支持协作学习的一种学习方法。当前CSCL已经成
软件测试对软件质量的保证具有非常重要的意义,随着面向对象分析与设计在软件开发中的大规模应用,面向对象软件测试也成为不可忽视的研究领域。传统的测试技术已经不能保证面
在信息时代,每天大量新的网络数据涌入互联网,网络空间异常行为更加复杂多变,数据的高维属性,导致入侵检测面临检测效率、准确率低。为了建设安全可持续的网络环境,为互联网的快速
作为一种特殊的移动自组织网络(Mobile Ad-hoc Networks),车辆自组织网络(Vehicular Ad hoc Networks , VANETs)的应用前景已然十分明朗。大量的科研工作者投身其中。防止恶
计算机视觉是用计算机去实现人类的视觉功能,来实现对周围三维场景的感知、识别和理解。立体视觉作为计算机视觉的一个重要分支,其基本原理是通过两幅或多幅二维图像,找到图