社交网络的好友推荐算法研究

被引量 : 4次 | 上传用户:marine_ogz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网行业进入web2.0时代,各类社交网络(SNS)平台得到了迅猛的发展,迅速成为国内外当前新的热点。SNS不仅为庞大的互联网用户提供深层次、多角度的信息支持和服务,而且将人们更加紧密地联系在一起,促进了互联网的发展,使得虚拟网络越来越融入人们的真实生活。但是庞大的用户规模和产生的海量信息给用户带来了信息过载的问题,用户很难找到自己潜在关注对象和感兴趣的信息。因此,在社交网站中进行合适的好友推荐非常有意义,这也成为web2.0时代互联网巨大商业价值的源泉。本论文的主要工作包括:首先回顾和总结了社交网络中的关系推荐的概念,着重介绍了经典的基于内容、兴趣、社交网络图这三类常用的关系推荐算法以及它们的适用场景。然后本文在KDD2012和Facebook推荐比赛的启发下,引出了基于特征抽取和排序算法的推荐模型,并给出了该模型的整体框架,本文除了调用新浪微博API进行数据采集外,分为候选集构建、特征抽取和排序算法这三个模块。其中,候选集构建模块从庞大的用户体系中快速地过滤出用户潜在感兴趣的对象,采用了局部随机游走算法LRW-Friend,并提出了适合微博特性的Biased-LRW。特征抽取模块将每一个候选者与目标用户构成“用户-候选者”对,从用户属性、社交关系、用户文本信息这三个方面做特征抽取,其中在对文本信息进行特征抽取时,使用了基于LDA主题模型的用户聚类,并提出了基于词向量语义相似性矩阵在用户聚类中的应用的算法。在排序算法模块中,排序算法采用组合树模型,该模块主要分为排序模型训练和预测两部分。本文将用户现有的粉丝列表、关注列表、互粉列表进行标注后作为训练集来训练排序模型;排序算法预测模块接收“用户-候选者”对的特征向量,输出为一个分值,该分值代表用户间的的兴趣匹配程度,越高则表示该候选者越有可能成为被推荐的对象。本文采用了内部交叉验证的方式调节模型的参数,使训练的模型具有很强的泛化能力,既提高了模型的性能,同时也能避免过拟合现象。
其他文献
目的建立高效液相色谱-串联质谱法快速测定蔬菜、水果中特丁硫磷、特丁硫磷砜和特丁硫磷亚砜农药残留量的分析方法。方法样品经乙腈直接匀浆提取过滤,滤液中加入氯化钠分层后
湖南省有着悠久的历史文化和优越的自然地理环境,是全国传统聚落相对集中和保存较为完好的省区之一。本文以国家和湖南省政府正式公布的30个历史文化名村名镇为研究对象,结合
<正> 笔者常用梔子干姜汤治郁火胃痛,每收捷效,同时对于胆石症急性发作、胆道蛔虫病并发感染所引起的胃脘部疼痛,如症属突热者,用此方亦有良好的止痛作用。以方简价廉而又有
慕课是在线学习的一种方式,慕课的出现对传统大学教育形成了一定冲击。与传统大学相比,慕课具有教学方式新颖灵活、授课教师声望高、学习者学习自主性强等特点,慕课将会与传
中国酒店业保持快速跨越式发展势头的重要驱动因素之一是跨国酒店集团在中国的扩张与发展。本文的目的在于分析决定跨国酒店集团区位选择的因素,并且评价跨国酒店集团投资战
文章介绍了以三菱Q系列PLC控制器为平台,使用SEW MOVIDRIVE变频器、三菱GOT触摸屏,通过PROFIBUS开放式现场总线技术构成的高精度变频位置控制系统在汽车焊装车间车身输送线的
草麻黄多糖具有重要的免疫抑制作用,因此对几种法定基源麻黄属多糖进行鉴别是一项重要的工作。本研究采用PMP柱前衍生超高效液相色谱-串联质谱(UPLC-MS/MS)技术分析草麻黄、
微乳液一般是由有机溶剂、水、表面活性剂、有时需要添加助表面活性剂所形成的热力学自发体系。由于其独特的物化性能,在许多方面已经得到了广泛的应用。本文主要研究其在萃
运动康复是体育、健康和医学"三位一体"交叉结合的新兴学科,它是是现代康复学的重要组成部分。随着全民健身活动的不断推广,我国的体育人口逐年增加,这使得运动康复专业人才
介绍陈国忠教授治疗胃食管反流病的临床经验。阐述胃食管反流病的主要病因病机为脾胃枢机不利。在临证辨治中紧扣病机,提出以疏调枢,疏调气机、化湿升降,遂其本性的治疗方法