【摘 要】
:
近年来,各式各样的在线社交网络,如Facebook,Twitter,Linkedln等等,都在以惊人的速度迅猛发展,并逐渐成为人们网络生活中不可或缺的一部分。然而各个社交网络帐号之间往往没
论文部分内容阅读
近年来,各式各样的在线社交网络,如Facebook,Twitter,Linkedln等等,都在以惊人的速度迅猛发展,并逐渐成为人们网络生活中不可或缺的一部分。然而各个社交网络帐号之间往往没有直接的联系,因此导致无法获得一个完整的社交用户网络图。跨平台的社交网络用户识别问题就是识别在各个社交网络背后的实体用户。现阶段关于身份识别问题还存在这一些缺陷:一方面,大多数用户身份识别依赖于用户档案信息匹配,缺乏个性化的用户行为分析。另一方面,很多基于机器学习的匹配算法是实现一对一的用户身份识别,没有做到多对多的用户身份识别。本文围绕跨平台的社交网络用户身份识别问题展开了研究。在用户预匹配方面,针对用户的博文书写行为,本文提出了基于频繁模式挖掘的个性化用户行为分析算法用来分析用户博文数据,从而使用户身份识别的问题不单纯的依赖用户档案数据。针对用户属性权值的分配,本文提出了基于后验概率的信息熵权值分配算法为用户不同用户属性信息赋予相应的权重,改善了经验权重分配法对用户识别所造成的低准确率的问题。在用户匹配方面,针对提高用户匹配的准确率和实现多对多的用户匹配问题,提出了基于稳定婚姻的随机森林确认算法。本文受启发于稳定婚姻匹配算法,实现了多对多的用户匹配。为了保证用户的匹配的准确性训练了随机森林模型对候选的匹配对做二次的确认之后产生最终的匹配对。实验结果表明,在准确率、精确率、AUC方面,本文所提出的算法相较与现有的相关算法都有所提升。最后,本文利用Spark分布式计算框架、Sping、Hive等工程技术构建了跨平台的社交网络用户身份识别系统。
其他文献
英国社会学家斯各特.拉什在《信息批判》一书中,认同晚期资本主义的异化现实,漠视当代实践多维有序、积极互生的综合发展趋势,构建了一个"全面信息内在性"的符号世界——晚期资
模式生物秀丽隐杆线虫(C.elegans)是多细胞无脊椎动物,其中神经细胞占体细胞的三分之一之多。虽然解剖结构十分简单,但神经递质、突触蛋白、离子通道等基本组成与人类具有高
目的构建表达错配识别蛋白MutS,并进行错配识别活性鉴定。方法在大肠杆菌中表达MutS蛋白,并纯化获得目的蛋白;利用凝胶滞缓实验对错配识别活性进行验证,并计算MutS蛋白降低的
对云南省青稞产业发展的现状和优势进行了分析,并根据其存在的问题提出解决的办法和发展方向.
课程思政是新时代全新的教育理念,自2014年上海市试点以来,关于其实践路径的探索逐步展开。学界已探索的课程思政实践路径大致上有三种:增开思政选修课程,加强顶层设计,形成
本文以4,4’-二氨基二苯醚、均苯四甲酸二酐为原料,制备聚酰亚胺(Polyimide,PI)薄膜。并将其与笼型倍半硅氧烷(Polyhedral oligomeric silsesquioxane,POSS),通过原位分散聚
信息通讯技术的进步,对全球经济和社会工作形态产生了革命性的影响,如电话、手机对通讯联络方式的影响、互联网计算机网络的发展、WWW对互联网的普及、电子商务对商务运作方式
公司治理结构是现代企业规范运营、可持续发展的制度保障。文章在分析我国上市公司普遍存在的公司治理形式化的原因的基础上,提出了提高公司治理有效途径,为进一步完善公司治
《中国药典》2000年版一部。收载中药材金银花为忍冬科植物。忍冬L.japonicaThunb.红腺忍冬L.hypoglaucaMig.山银花L.corlftlsaDc或毛花柱忍冬L.dysystylaRehd4种为法定药用金银花
本文研究了一种基本的数据结构——循环队列,讨论了循环队列的四种头尾指针的设置方法对入队、出队算法实现的影响,说明要写出简单出入队算法的关键在于头尾指针初值的设置,