新浪微博的数据采集和推荐方案研究

被引量 : 0次 | 上传用户:FishGWDC
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新浪微博作为一种新型的社交应用平台,经过多年的发展,已经成为社交应用的主流。随着“信息爆炸”时代的到来,人们不可能关注所有的微博信息,推荐系统可以发现用户兴趣,针对用户进行个性化推荐。传统的微博推荐系统主要从社交网络的拓扑结构和用户注册信息的方向来考虑,生成相应推荐结果。通常这样给出的结果与用户的兴趣相似度不高。本文主要从用户兴趣的角度出发,分析用户自身发表过的所有微博记录来预测用户兴趣,并给出推荐结果。这样的推荐结果用户针对性更强,更加能满足用户兴趣需求。本文对微博推荐系统的实现过程进行了深入的研究,核心的工作主要分为三个部分:第一部分是新浪微博的数据采集:通过新浪API和网络爬虫这两种方式采集新浪微博的数据,把采集的结果数据作为训练模型的语料库,同时也作为推荐信息的基本来源。第二部分主要对用户进行聚类操作,通过分析用户发表的所有微博,提炼出用户主题模型,然后使用k-means算法对所有的用户主题模型进行聚类操作,把用户划分成k类兴趣相似的用户簇。第三部分关于微博推荐列表生成:用户的所有主题词构成一个用户主题向量,用基于word2vec的文本相似性度量算法计算该簇中其它用户发表的微博与该用户主题向量之间的相似性,得到一个相似度列表。对相似度列表进行排序,取出相似度值最大的N个值所对应的微博加入推荐列表,针对用户进行个性化推荐。最后,利用node.js的express框架和一些前端库,搭建了一个简单的微博推荐系统,该系统基本实现微博个性化推荐的功能。
其他文献
民营企业凭借自身优势和努力成为我国"走出去"的重要力量。作为亚洲最大的区域经济一体化组织,中国CAFTA在市场潜力、经济环境和合作关系方面的优势使其成为我国民营企业"走
本文以现代汉字理据理论为基础,对《汉语水平词汇与汉字等级大纲》中的2905个汉字进行理据拆分,将现代汉字按照理据强弱重新分类,分别赋予其理据值,并根据理据度公式测算出现
改革开放以后,我国金融业进入蓬勃发展时期,金融各领域虽然都取得了飞速的发展并逐渐向发达国家接轨,但是仍旧面临着发达国家和发展中国家都面临的问题,即“金融排斥”。我国
本文运用突显理论及其判定动词性语法范畴突显的标准 (语法化程度、系统性、强制性和遍布性 ) ,论证英语是时制突显的语言 ,汉语是体突显的语言 ,并从正反两方面证明 ,汉语中
棉秆是棉花的副产品,也是世界范围内广泛存在的天然可再生资源。棉秆皮重量约占棉秆重量的26%,而棉秆皮中含有丰富的纤维素,木质素和半纤维素,具有多种利用价值。但是,目前棉花秸
当下的中国英语学习呈现明显的低龄化趋势。同成年人相比,幼儿学习英语有天然的优势,但时下的幼儿英语教育却弊端多多,隐忧重重。幼儿英语教育要走上健康发展的轨道,除需要具
<正>农发行1200亿元信贷资金全力支持夏粮收购。目前,农发行已筹措信贷资金1200亿元,全力支持今年夏粮收购。坚持在不"打白条"的前提下防控风险的指导思想,落实"多收粮、收好
从中国思想文化的发展及中西方文化的碰撞角度出发,分析了老上海月份牌广告画的形成得益于传统思想的解放;进一步分析了19世纪末西方文化对中国传统绘画和审美的冲击,指出月
<正>改革开放以来,随着人口流动规模的日益庞大,我国流动人口的阶层分化现象越来越明显。人口流动推动了经济、政治、社会、文化以及个人等的发展。因此,研究人口流动制约因