【摘 要】
:
在线社交网站是web2.0时代的标志性产物,它改变了人们的生活方式,数以千万的用户在社交网站上联络好友、分享动态、参与活动。社交网站提供基本资料页面供注册用户填写,如性
论文部分内容阅读
在线社交网站是web2.0时代的标志性产物,它改变了人们的生活方式,数以千万的用户在社交网站上联络好友、分享动态、参与活动。社交网站提供基本资料页面供注册用户填写,如性别、生日、地理位置、教育背景、兴趣爱好等等,然而现实却是,社交网站的用户资料存在着严重的不完整、不准确问题。本文研究社交网络中的用户属性推测方法,主要贡献包括以下三点:第一,传统关系型数据分类方法是基于不同的应用场景提出的,本文详尽考察了相关的经典算法,并在真实社交网络用户属性数据集上进行横向对比实验,对照实验结果对经典算法的优劣展开讨论。第二,本文结合社会学中“强关系”和“弱关系”的划分,分析了利用同质性进行属性推测的本质,提出了“同质边”与“异质边”的概念,指出“异质边”是影响属性推测的噪音。随后本文引入扩展的欧式距离,提出一种自学习的边的同质性度量,使用该度量采取简单的删边降噪手段,实验证明了结合该自学习度量的降噪手段的有效性。该部分研究展示了寻求有效的数据预处理手段,可以在一定程度上提高属性推测的准确率。第三,本文提出一种新的用户属性推测方法——跳数限制的近邻算法(Hops Limited Relational Neighbor),它主要针对经典算法LI(Local Iterative)的不稳定问题,一个重要缺陷是迭代轮数增加时,准确率先上升后下降。通过在LI算法框架下,重新设计邻居节点的投票过程,加入更加细致的标签传播控制、标签传播距离限制和膨胀操作,在准确率可比的前提下,大幅度提高了LI算法的稳定性。
其他文献
随着当今社会信息化程度的不断提高,企业应用往往需要从大量异构、分布、自治的多数据源中提取数据,如何屏蔽底层异构数据源,将异构数据映射为统一的数据模型,以及如何快捷有
伴随无线通信技术的快速发展,人们希望能够通过无线方式接入互联网络,最近几年,越来越多的人群开始在日常的工作和生活中使用PDA等移动手持设备。对于企业用户来说,手持设备
本文针对阶段性事件驱动架构(SEDA),设计出一套自适应性能控制机制。过去几年因特网爆炸性的增长引起了大量新的网络服务在全世界范围内快速普及,网络服务已经成为一种重要的
随着互联网的蓬勃发展,互联网越来越成为民众表达自己利益诉求、发泄自己情感以及跟其他民众进行思维讨论碰撞的一个新平台。但由于网民素质参差不齐,热点事件到底是确有其事
计算机软件的普遍应用带给人们越来越多的便捷,并日益影响人们的日常生活,但计算机软件中存在大量的错误及漏洞,隐藏着巨大的风险。因此,无论是科研机构还是企业,都在努力研
VoIP是下一代网络中一个极其重要的应用,作为构建VoIP电话系统信令协议之一的SIP协议,以其突出的简单、灵活、分布式控制和易于扩展等优点赢得了业界的青睐,尤其是在3G即决定
随着互联网(Internet)的高速发展,人们的信息来源得到了极大的丰富,信息获取方式也随之而改变。这为人类带来机遇的同时也带来了挑战。在Web信息呈现几何级数增长的情况下,如
VPN技术利用Internet等公共网络资源构建虚拟专用网络,在共享网络中通过加密隧道等技术来保证用户数据的安全性,是解决网络传输中端到端连接安全问题的一条有效途径。随着VPN
JXTA作为开发P2P应用的基础平台已经在P2P应用的各个领域得到广泛的应用,但是针对P2P流媒体系统的开发还很少。当前很多处于实用阶段的P2P流媒体直播系统都使用自己的P2P底层
随着互联网的发展,人们越来越易于在网络上分享多媒体,则不可避免地会有一些暴力多媒体信息流入网络,对于未成年等特定人群来说,这些信息会对他们的行为习惯产生严重的负面影