论文部分内容阅读
在信息技术掀起的网络革命浪潮下,互联网领域正从“用户以获取信息为主”的Web1.0时代向“用户既是网络信息获取者又是网站信息制造源”的Web2.0时代转变。社交网络服务(SNS)凭借其丰富的用户参与性和互动性成为Web2.0时代的典型应用,并在短时间内风靡全球。越来越多的用户开始在Facebook、微博等社交网络上大量地发表自己的信息和内容,用户特征信息以更直观的方式海量存在于SNS社交网络中。事实上,SNS的发展史就是人们将线下生活和社交的完整信息流逐渐转移到线上并进行低成本管理和维护的历史,从而使得虚拟社交的内容越来越丰富。这些信息为SNS中的每个信息节点赋予了完整的人格和形象,而这些人格信息具有巨大的潜在商业价值。针对上述背景,本文主要研究了基于社交网络的用户特征挖掘与应用问题。文章首先建立了用户特征挖掘模型,该模型针对解决的问题类型不同分为有标签的用户特征挖掘和无标签的用户特征挖掘两种,其用到的数据挖掘方法包括分类、聚类、图挖掘与文本挖掘等。然后,文章在不同的场景下对提出的模型进行了具体实现,包括以抑郁症发现为场景的有标签用户特征挖掘、以老龄社交结构发现和用户兴趣发现为场景的无标签用户特征挖掘模型的实现。基于新浪微博的实验结果表明,以上算法能够满足场景的预期目的,且准确率都在70%以上,证明了本文提出的技术路线是可行的,在具体的应用场景下能够保证用户特征的识别和挖掘结果的准确性,能够很好地满足基于中文社交网络对用户特征挖掘的需求。最后,本文基于用户特征挖掘的具体模型和算法,开发了一款新浪微博网页端应用,主要功能是用于情感分析和抑郁症发现。文章具体介绍了该应用的系统整体架构、各模块设计、开发环境与运行平台、系统详细设计、实现过程、系统的运行介绍以及性能分析。