论文部分内容阅读
社交网络使得用户之间可以随时随地的交流和沟通,尤其是智能手机和4G网络的推广,使其受到越来越多的用户青睐,现已成为信息传播的主要方式之一。随着云计算、大数据技术的发展,社交大数据分析挖掘成为学术界、工业界重点关注的对象,其中数据采集是数据分析中的关键环节之一。为了对社交网络信息传播模型及用户最大影响力的进一步研究,本文通过对数据采集系统的分析研究,设计并实现了一个简单通用的社交网络数据采集系统,基于采集的数据,论文重点对社交网络的用户偏好进行分析。论文主要内容包含以下几个方面:首先,社交网络数据采集系统相关技术的介绍。本文介绍了数据采集的两种方法:网络爬虫和开放API接口;深入研究了采集过程中OAuth授权认证、XML和JSON页面解析技术和非关系型数据库等相关技术。其次,社交网络数据采集系统的设计与实现。本文通过开放的API接口采用广度优先的搜索策略采集社交网络数据;使用多账户复用和多线程相结合的方式控制请求的频率来提高采集的效率;使用朴素贝叶斯方法来解决垃圾博文过滤问题;使用Hash Map的方法来解决用户去重问题;使用翻页技术解决数据完整性问题;采用Mongo DB和文本文件两种方式对采集的海量数据进行存储;采用数据修剪的方法对数据进行预处理。再次,社交网络中用户偏好分析。本文使用TF-IDF(term frequency-inverse document frequency)计算特征文本中特征项的权重;采用VSM(Vector-Space Model)对用户的偏好建模得到每个用户及话题的特征向量;采用文本的余弦相似度计算用户的偏好。最后,通过实验对社交网络数据进行分析。本文通过随机取样的方式对腾讯微博数据进行了采集,保证了数据的随机性以及采集系统的可行性和有效性。通过对数据集中用户关系和用户博文数据的处理分析,验证了垃圾博文过滤和用户偏好建模方法的有效性,同时也验证了社交网络是无标度网络。