论文部分内容阅读
随着Web2.0和大数据时代的到来,社会关系网等多种类型的网络得以迅速发展,海量多维数据给相关分析人员带来了巨大挑战,如今对蕴含着丰富信息的关系数据进行直观分析变得越来越困难。在传统的数据关系发现过程中,一般将数据信息和分析结果以文字或表格的形式呈现,导致分析人员很难发现数据中隐藏的关联关系。本文以微博数据为研究对象,针对社交网络数据进行关系分析。与传统的数据分析方法不同,本文将微博个体用户基本信息以及其粉丝关系、关注关系等信息以可视化的方式呈现,利用人眼对图形图像信息较强的识别能力,快速准确地发现数据之间蕴含的关键关系;进而利用可视化交互技术实现数据跳转,对关系数据进行有针对性的二次分析及多次分析;同时,利用数据挖掘算法实现全量数据的统计分析,并将结果以可视化的形式进行展示,用于辅助分析人员发现数据规律并决策探索方向。在本文中这种数据分析方法称为基于可视化的探索式关联分析。该方法可应用于多种基于行业的数据分析,充分发挥人在探索数据关系过程中不可替代的作用,从而更加准确且高效的对数据进行分析。针对该方法在微博数据中的应用,本文主要做了以下几个方面的工作。首先,设计并实现了大数据分析平台框架。因为微博数据中包含了大量复杂的用户信息、用户关注与被关注信息、博文、转发关系等结构化数据,所以对于相关数据存取以及分析性能产生了较高的要求。该框架针对微博数据量大、数据结构复杂的特点设计,基于现有的大数据相关技术实现,为后续数据分析工作提供可靠的支撑。其次,提出了一种基于微博用户数据的分析模型。本文使用K-Means算法实现了基于兴趣关系的用户聚类,从而得到按照兴趣划分的关系圈,将结果可视化表达,使分析人员更容易发现用户之间的关系;另外,本文使用FP-Growth算法实现了基于用户关注及微博转发关系的关联规则挖掘,当分析人员对某一用户进行分析时,智能引导关联用户,从而达到辅助决策分析方向的目的。最后,对基于Web页面的用户及微博信息的可视化方案进行实现。本文分别对用户基本信息、粉丝信息、微博信息进行可视化展示,在对微博数据层次结构进行分析的基础上,本系统能够保证大量数据节点在有限的空间内展示时布局整洁清晰,并能实现通过简单交互操作完成用户关系及微博关系信息间的切换,从而实现多次关系探索,提高分析效率。