面向社会网络的用户行为挖掘与应用研究

被引量 : 10次 | 上传用户:xieyinglan2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会网络,又称社交网络,是一个由大量社会个体成员组成的庞大网络。与一般网络相比,它更加强调网络中个体成员之间的社会关系,及其相互间的互动与影响。近年来,随着Web2.0技术的深入发展和各类社交网站及服务的广泛应用,社会网络不再局限于传统社会学领域的研究范畴,而已经成为经济学、传播学、医学和计算机科学等众多学科领域学者关注和研究的对象。无论是分析社会网络的拓扑结构、探讨网络的成因,抑或对网络个体以及个体间的社会关系进行研究,都属于社会网络分析的研究范畴。而对社会网络用户的各类行为进行分析与挖掘也是其中一个重要的研究分支。这类研究的目的是发现用户行为的模式、规律,或是影响用户行为的因素,以及用户行为所带来的结果等等。面向社会网络的用户行为挖掘与分析在改进用户体验、企业客户关系管理、产品市场推广,以及实现高度智能化的搜索服务等方面具有实际的应用价值和巨大商机,因而受到学术界和工业界人士的广泛关注。近年来,在各学科领域虽己涌现出一大批关于社会网络用户行为的研究工作,但其中很多工作所采用的方法还存在不足。不少用户行为的模式、成因等仍未得到深入的挖掘。另一方面,计算机科学领域的研究人员借助计算机技术在分析从互联网中获取的海量数据过程中,虽然注重借鉴传统社会学的研究成果,却缺乏与现实的应用场景相结合。例如,关于社会网络中的信息传播,虽然已经有学者提出了社会影响(Social Influence)和同质性(Homophily)是两种最重要的促使网络个体参与信息传播的因素,但对这两种因素的量化分析还不够深入,尤其缺少针对不同应用场景的特别考虑。又如,不少学者关于网络用户行为的建模研究过于强调理论和方法上的改进,却忽视了建模方法的选取应当贴合实际的应用场合,这样才能有效地提升模型预测的效果以证实模型切实具有的应用价值。针对这些问题和不足,本文关注几种典型的社会网络中存在的用户行为,通过对其进行详尽的挖掘和分析,探寻影响这些用户行为的关键性因素。同时,本文尝试建立准确的模型来刻画并预测用户的行为,从而为实际的应用需求服务。在本文阐述的研究工作不光注重采用合理、有效的理论方法,更看重实验结果和相关结论对实际的应用场合能带来的促进作用。本文的主要工作内容和研究贡献包含以下几个部分。1.由网络论坛用户构成的社会网络是在线社交网络的雏形,本文针对这种网络中的用户群体关注度概念提出了合理的度量方法,并通过对论坛数据的实证分析,发掘出影响论坛用户群体关注度变化的几种相关因素。在此基础上,本文还建立了用户群体关注度的演变模型,用以预测论坛中新出现的帖子在将来被他人关注的情况,因而在网络舆情预测和监控方面有重要应用价值。2.由于论坛用户数据集缺少社会好友的联系信息,使得相关分析结论缺少对社会影响力的考虑。因此,本文还关注另一种社会关系显著的结构化网络——科学家合作网络,对其中学者们的主题跟随行为进行研究。该行为可视作科学家合作网络中的主题传播,但在之前的相关研究中少人涉及。本文的工作不仅度量了社会影响和同质性这两种因素对主题跟随行为的影响效果,而且通过实证分析证明了这两种因素的混合作用,及其影响是随时间推移呈指数下降的趋势。本文还进一步对应这两种因素建立了一个多元逻辑回归模型,用以预测网络中各个用户(即学者)针对某个研究主题发表相关文献的概率。该模型在学术会议的研究主题设置,提高论文征稿函的分发效率等方面具有实际的应用价值。3.为进一步提升对科研学者主题跟随行为的预测准确率,并拓展其应用场合,本文又将同构的科学家合作网络扩充成一个结构更复杂、信息量更丰富的异构信息网络。为了衡量该网络中两个用户的相似性程度,本文不仅借鉴了前人提出的元路径概念,而且额外考虑了邻居用户跟随某个具体主题的倾向性。本文为预测用户主题跟随的模型找到了更多、更关键的特征变量,从而提升了模型的预测准确度。同时,本文的实验评测验证了模型在微观和宏观两个层面的应用价值。4.微博的兴起和流行标志着在线社会网络发展到一个全新的阶段,对微博社区中的用户行为进行挖掘同样具有重要的研究意义和应用价值。具体而言,本文关注微博用户对自身的标注行为,该行为属于社会标注的范畴。前人对于社会标注的研究大都基于对网络物体(图片、URL等网络资源)的标注,却很少关注对一个人进行标注,尤其是针对微博用户。本文通过实证研究发现了在微博用户的标注行为中同样存在社会个体间的同质性影响,基于该原理设计的标签推荐机制解决了传统推荐算法在面对用户标注问题时难以避免的冷启动问题。此外,本文还利用基于在线百科网站构建的语义网络来消除推荐标签中存在的语义冗余,最终设计并实现了一个性能优良的微博用户标签推荐系统STUP。详细的实验证明,在设计STUP系统时提出的标签推荐算法还有助于准确地推断用户的个人属性信息,该功能在很多场合都具有非常重要的应用价值。
其他文献
目的:对β-地中海贫血复合α-地中海贫血双重杂合子进行分子检测及血液学表型分析,以了解海南地区其检出率及基因分布状况。方法:对370例β-地中海贫血基因携带者进行α-地中
<正>子宫内膜癌(endometrial carcinoma,EC)是女性生殖系统最常见的三大恶性肿瘤之一,约占女性生殖系统恶性肿瘤的20%~30%,占女性全身恶性肿瘤的7%〔1〕。子宫内膜癌好发于围
施莱尔马赫解释学的辩证性和对话性对伽达默尔诠释学产生了重大影响。施莱尔马赫解释学的辩证性和对话性及其关系可从四个方面阐释:严格的解释实践与不严格的解释实践、语法
坡面侵蚀性降雨径流水动力学特性及侵蚀机理是水力侵蚀动力学学科研究的基础,也是研究侵蚀动力、能量来源的重要内容。本研究针对坡面径流在流速分布、流型判定、阻力计算及侵
石墨烯是一种由sp2碳原子组成的二维碳纳米材料,其独特的单原子层结构赋予了其大的比表面积、高的力学强度、良好的导电能力等性能,使其成为理想的纳米粒子载体材料和聚合物
政府购买社工服务对我国来说还是一项新鲜事物,由于政府、社会公众、各类社会组织对之了解甚少,对这一改革措施的研究还处于起步阶段,因而无论是在理论上还是实践上都还不成
目的:探讨贵州省东南部3~12岁少数民族儿童角膜内皮细胞密度与生长发育的关系,为少数民族儿童健康保健提供依据。方法:于2011年9月~2014年7月采用随机抽样的方法选取贵州省东
家用监护仪系统是运用现代电子技术将人体的各项生理参数进行采集转换、传输和反馈的现代医疗仪器。家用监护仪不同于传统医疗监护仪,它主要是针对家用设计,具有微型化、便携便
研究背景肺炎链球菌性疾病的高发病率、高病死率、抗生素耐药性以及严重的后遗症,尤其是疾病对婴幼儿以及老年人产生的严重影响,使得该疾病已然成为了世界范围内一项重要的公
以往关于地方政府行为的研究主要关注国家中心、科层结构、地方竞争等因素的作用,而本文认为这样的研究无法解释差异性地方创新的动因及其演变过程。从地方治理理论来看,地方