基于可视化的探索式关联分析

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yuxinliuyun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0和大数据时代的到来,社会关系网等多种类型的网络得以迅速发展,海量多维数据给相关分析人员带来了巨大挑战,如今对蕴含着丰富信息的关系数据进行直观分析变得越来越困难。在传统的数据关系发现过程中,一般将数据信息和分析结果以文字或表格的形式呈现,导致分析人员很难发现数据中隐藏的关联关系。本文以微博数据为研究对象,针对社交网络数据进行关系分析。与传统的数据分析方法不同,本文将微博个体用户基本信息以及其粉丝关系、关注关系等信息以可视化的方式呈现,利用人眼对图形图像信息较强的识别能力,快速准确地发现数据之间蕴含的关键关系;进而利用可视化交互技术实现数据跳转,对关系数据进行有针对性的二次分析及多次分析;同时,利用数据挖掘算法实现全量数据的统计分析,并将结果以可视化的形式进行展示,用于辅助分析人员发现数据规律并决策探索方向。在本文中这种数据分析方法称为基于可视化的探索式关联分析。该方法可应用于多种基于行业的数据分析,充分发挥人在探索数据关系过程中不可替代的作用,从而更加准确且高效的对数据进行分析。针对该方法在微博数据中的应用,本文主要做了以下几个方面的工作。首先,设计并实现了大数据分析平台框架。因为微博数据中包含了大量复杂的用户信息、用户关注与被关注信息、博文、转发关系等结构化数据,所以对于相关数据存取以及分析性能产生了较高的要求。该框架针对微博数据量大、数据结构复杂的特点设计,基于现有的大数据相关技术实现,为后续数据分析工作提供可靠的支撑。其次,提出了一种基于微博用户数据的分析模型。本文使用K-Means算法实现了基于兴趣关系的用户聚类,从而得到按照兴趣划分的关系圈,将结果可视化表达,使分析人员更容易发现用户之间的关系;另外,本文使用FP-Growth算法实现了基于用户关注及微博转发关系的关联规则挖掘,当分析人员对某一用户进行分析时,智能引导关联用户,从而达到辅助决策分析方向的目的。最后,对基于Web页面的用户及微博信息的可视化方案进行实现。本文分别对用户基本信息、粉丝信息、微博信息进行可视化展示,在对微博数据层次结构进行分析的基础上,本系统能够保证大量数据节点在有限的空间内展示时布局整洁清晰,并能实现通过简单交互操作完成用户关系及微博关系信息间的切换,从而实现多次关系探索,提高分析效率。
其他文献
目的 探讨彩色多普勒超声对下肢小腿肌间静脉血栓的诊断价值。方法 对56例临床疑似小腿肌间静脉的的患者(观察组)进行彩超检查,二维图像下观察静脉的管径、管腔内是否有异
发展中国家的经济发展战略主要有两种:进口替代战略和出口导向战略。这两种发展战略的理论基础、战略目标、战略措施。产业的侧重点皆不相同。两种战略各有其优缺点。通过两
<正> 爱德华·埃尔加的《谜语变奏曲》吸引和迷糊着广大音乐爱好者已经有80多年了。这部作品最初取名为《原有主题变奏曲》,它包含一个命名为“谜”的开始曲调,接着是14首带
<正> 琴乐 我研究中国音乐史五十余年,对于我来讲,“琴乐”是一个很大的课题。在具有数千年历史的中国音乐里,所涉及到的重要问题,不外乎是孔子以来儒教的礼乐(雅乐)、唐代的
期刊
过去二三十年来,尽管人们在软件工程原理的指导下,对软件项目进行了工程化的管理,取得了一定的成效,但令人遗憾的是软件工程的实践令人非常不满意。原因是多种多样的,其中最
目的探讨多层螺旋CT平扫及三期增强扫描在胃癌诊断中的临床应用价值。方法整理96例经胃镜证实为胃癌的患者资料,将多层螺旋CT检查结果与术后病理结果对照分析。结果 96例胃癌
随着各种真人秀的热播,我们发现如今中国的电视荧屏充满了韩国节目模仿,特别是时下掀起了一场收视热潮的《奔跑吧兄弟》更是将这个现象凸显之至。以《奔跑吧兄弟》为样本,分
伴随着工业化、城镇化的加速发展,我国出现了生态资源存量和资源再生能力不断下降的情况。近年来,越来越多的因素制约着区域社会经济和生态环境的协调发展,为实现禁止开发区
叶伯和所著《中国音乐史》为现见最早成书的一部中国音乐史专著(上卷1922年印行,下卷1929年印行)。该书体例新出,史料扎实,观点进步鲜明,不仅在当时具有高度的学术价值,即至
在微波毫米波应用中,提高AlGaN/GaN HEMT器件的截止频率fT和最高振荡频率fmax是研究工作中的重中之重,而提升器件频率特性最简单有效的方法是减小器件栅长Lg,随着Lg减小会产