社交网络的数据采集与分析方法研究

被引量 : 0次 | 上传用户:zxhouxingzx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络使得用户之间可以随时随地的交流和沟通,尤其是智能手机和4G网络的推广,使其受到越来越多的用户青睐,现已成为信息传播的主要方式之一。随着云计算、大数据技术的发展,社交大数据分析挖掘成为学术界、工业界重点关注的对象,其中数据采集是数据分析中的关键环节之一。为了对社交网络信息传播模型及用户最大影响力的进一步研究,本文通过对数据采集系统的分析研究,设计并实现了一个简单通用的社交网络数据采集系统,基于采集的数据,论文重点对社交网络的用户偏好进行分析。论文主要内容包含以下几个方面:首先,社交网络数据采集系统相关技术的介绍。本文介绍了数据采集的两种方法:网络爬虫和开放API接口;深入研究了采集过程中OAuth授权认证、XML和JSON页面解析技术和非关系型数据库等相关技术。其次,社交网络数据采集系统的设计与实现。本文通过开放的API接口采用广度优先的搜索策略采集社交网络数据;使用多账户复用和多线程相结合的方式控制请求的频率来提高采集的效率;使用朴素贝叶斯方法来解决垃圾博文过滤问题;使用Hash Map的方法来解决用户去重问题;使用翻页技术解决数据完整性问题;采用Mongo DB和文本文件两种方式对采集的海量数据进行存储;采用数据修剪的方法对数据进行预处理。再次,社交网络中用户偏好分析。本文使用TF-IDF(term frequency-inverse document frequency)计算特征文本中特征项的权重;采用VSM(Vector-Space Model)对用户的偏好建模得到每个用户及话题的特征向量;采用文本的余弦相似度计算用户的偏好。最后,通过实验对社交网络数据进行分析。本文通过随机取样的方式对腾讯微博数据进行了采集,保证了数据的随机性以及采集系统的可行性和有效性。通过对数据集中用户关系和用户博文数据的处理分析,验证了垃圾博文过滤和用户偏好建模方法的有效性,同时也验证了社交网络是无标度网络。
其他文献
木材在户外使用时易发生物理、化学和生物劣化,其耐腐性与含水率有关系密切。因此,很多研究者致力于降低含水率的研究,以及能达到低于其临界值的效果。石蜡乳液(PWE)是木材工
装配制造业是国家工业的基础,机床是一个国家装配制造业水平的象征。高档数控机床代表了一个国家的工业发展水平,是当今机床行业发展的方向,双摆角铣头作为高档数控机床附件
电镜片研究显示絮凝体的表面和内部具有高度不规则性,絮凝体的形成过程具有分形特征。通过实验研究絮凝体的特性和分形维数之间的关系,分析了絮凝体的分形特征,发现可建立一种非
加强型汽车V带是在原普通汽车V带的基础上,优化了汽车V带的结构,在压缩层增加了织物帘线作为辅助加强层,增强了V带的传动功率,提高了v带的使用寿命。
<正> 山东省移民东北三省已有三百多年的历史。清代,特别是清代后期是山东移民东北的重要时期。在清代,山东移民东北有两种情况:一是清初山东人民的反清斗争连锦不断,民族矛
随着我国列车运行速度不断提高,为保障列车的安全运行,对其各项参数检测尤为重要,其中接触网导线高度和弓网拉弧等参数的检测是反映弓网运行状况。然而传统的检测方法是在受
近年来,我国国民经济实现了持续的快速增长,随之而来的金融创新的脚步也不断加快,各类金融机构开始着力开发大量的投资理财产品,以满足市场上投资者的多元化需求。在这其中,
低聚果糖,是果糖基经β-(2→1)糖苷键连接而成,聚合度为2-9的功能性低聚糖。目前,食品中添加的低聚果糖,主要是通过人工酶解的方法制备,根据其来源分为蔗糖来源低聚果糖和菊
作为中国哲学的经典之作,《周易》在中国历史上享有崇高地位与价值,其内含丰富而深刻的人生哲学与智慧,数千年它形塑了中国人的为人之道与处事之理。剖析《周易》人生哲学,对认识
随着近年来保险监管不断趋严,摘得牌照的门槛越来越高,各行业开始转道争抢保险中介牌照,通过销售保险来分享行业红利。继2017年腾讯、百度、阿里巴巴等互联网巨头纷纷拿下这一牌
报纸