基于主题模型的微博推荐研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:foxdafei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为一种新型的社交网络平台,已经成为用户发布和获取信息的重要途径。对微博进行主题建模能使用户从海量信息中找到感兴趣的信息和用户。但是由于微博消息长度短,更新速度快以及噪音大等问题,传统的主题建模方法效果并不理想。   本文实现了两种对LDA主题建模改进的方法,基于用户维度的建模方法将原始LDA模型和作者主题模型相结合,通过对用户一主题进行建模取代原有的文档一主题建模方式,解决了文本长度过短而造成的信息量不完整的问题;基于领域一时间的建模方法在前者的基础上进一步认为微博消息在领域和时间上有着明显的集中性,因此考虑了领域和时间因素的建模方法能有效地降低微博消息中的噪音,提高主题区分度。在此基础上,本文通过训练好的主题模型对用户进行兴趣挖掘,并实现用户的个性化推荐,包括相似用户推荐和用户感兴趣的微博消息推荐。   实验证明,基于主题模型实现的个性化推荐的准确率均高于使用TF-IDF算法,且两种改进的建模方法在主题质量上确实明显优于直接应用LDA模型对微博消息进行主题建模,尤其是基于领域一时间实现的个性化推荐,达到了较高的准确率。
其他文献
随着对无线传感器网络研究的加深,无线传感器网络已经被应用于实际的环境监测,火灾监测是其中一个重要的应用。但是目前基于无线传感器网络的火灾监测系统存在两个问题:(1)由于
服装产品品质很大程度受所用的纤维种类和纤维混合比例确定。纺织品中主要采用的纤维为棉、毛、天丝、苎麻等。对纺织纤维的判别是我国纺织进出口检验的一个重要环节。目前基
可扩展标记语言(eXtensible Markup Language,XML)具有平台无关性、自描述性、简单性等优点,它已迅速发展成为Internet上数据表示和交换的标准。互联网上XML数据的不断增长,
图像处理面临数据量大,处理速度慢等问题,人们研究和采用基于并行机或并行集群的图像并行处理技术,以提高图像处理的效率。随着多核架构的出现,多核并行技术成为提高图像处理
数据挖掘领域涉及很多方面的知识,聚类分析是该领域中的技术之一,也是该领域中重点研究内容之一。聚类分析实际上是对数据集进行分类、分组的一种方法。聚类分析应用广泛,在机器
随着移动互联网的发展,移动终端在日常生活中占有越来越重要的地位,同时随着软件即服务模型的盛行,越来越多的移动终端使用云服务完成相应的功能。在使用移动终端享受各种快
根据信息产业部无线电管理局下达的信无函[2002]127文、信无函[2002]10文和信无函[2009]666号文中对900M频率资源的政策以及欧洲电信标准联盟(ETSI)针对民用数字对讲机推出的dP
随着多媒体和网络技术的迅速发展,多媒体数据正以指数级别的速度增加。其中,视频信息最为复杂。视频信息的快速增长,使得人们对其进行快速、有效地检索和管理越来越困难。为
无线传感器网络将大量传感器部署在需要进行观测的区域中,传感器节点之间通过无线方式进行互联。部署方式可以是随机分布,也可以是定点安置。由于在获取信息和处理信息上具有
随着信息技术的发展,人们的社交关系也已经被逐步搬到互联网上,正是基于社交关系的信息传播机制扩大了有效信息的传播范围。与传统的搜索引擎相比,社交关系背后隐藏的口碑效