基于大数据的社交网络分析系统设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:capfhn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展,社交软件的不断升级完善,人们越来越愿意把日常生活迁移到网络中去,人与人之间的交流互动也越来越依赖社交媒体。Facebook、Twitter和Linked In等社交媒体不断扩大用户群体,已然成为人们生活不可或缺的一部分。社交网络中每时每刻都在产生海量的数据,传统的单机模式无法满足当今对数据处理能力的要求。面向大规模社交网络数据的挖掘和分析具有极其重大的意义,因此对社交网络的分析和研究成为各界关注的热点。本论文针对网络空间安全领域中社交网络的数据难获取性、大数据组件难管理性、数据分析挖掘算法的缺乏针对性等难题,基于大数据技术设计并实现了包括数据采集、数据存储、数据计算、数据挖掘分析和数据可视化功能在内的社交网络分析系统,具有良好的扩展性和实用性。本论文的研究内容如下:系统开发:本系统以Facebook、Twitter和Linked In作为数据源,设计并实现相关的反爬虫措施,持续性通过分布式智能爬虫进行数据采集,作为上层应用的数据基础。使用大数据技术作为数据存储、计算和分析挖掘的基础,构建以HDP(Hortonworks Data Platform)大数据平台架构为基础,包括分布式文件系统、Spark分布式计算框架以及多种分布式数据库和其他大数据组件的大数据平台,为社交网络分析系统提供数据存储、计算和分析挖掘的工具。使用Spark的Graph X和ML(Machine Learning)库实现社交网络基本特征分析包括度分布、关联性分析,最短路径分析和用户聚类等。算法改进:综合分析传统的Page Rank算法和各种社团检测算法的缺陷后,将传统算法与社交网络实际数据相结合,提出基于不同社交网络的关键节点挖掘算法tw Rank算法和fb Rank算法,设计实验对比验证表明新算法较之传统算法能更好地利用采集到的数据达到精准挖掘关键节点的效果。针对传统Louvain社团检测算法的缺点提出改进的基于分布式的Louvain社团检测算法,并通过实验验证其处理大量数据的优势。系统可视化:本系统最终将上述模块功能使用Django框架和可视化技术实现数据管理和数据分析挖掘结果的可视化展示。
其他文献
NV色心是由金刚石中一个氮原子(Nitrogen)取代其中一个碳原子,并且捕获其临近位碳原子空位(Vacancy)形成的点缺陷。金刚石NV色心具备优异的光学特性,是一种优异的单光子源,广泛应用于量子光学、量子计算、量子成像和生物医学等领域。金刚石氮空位色心具有人工可制备、电子自旋相干时间长、发光明亮且稳定等优点。通过光学方法的形式对其量子态进行初始化和读取,基于外部电磁场、温度、应力对其量子态的作
得益于我国经济的快速发展以及人民生活水平的不断提高,当前我国航空运输市场能够快速发展,一方面,世界著名的航空公司纷纷开通中国航线,另一方面,国内航空公司的数量也大大增加,方便旅客出行的同时也带来了航空运输市场激烈的竞争环境。对航空公司而言,企业的发展除了需要靠外部市场的积极开拓,积极增加航线数量和飞行班次,同时也得需要对企业内部进行科学管理,提升企业的运作效率和服务安全性。而企业竞争力离不开员工的
区块链技术受到广泛关注,共识机制是其核心技术之一,Equihash是一种工作量证明类型的共识机制算法。Equihash算法首先采用BLAKE2b算法产生2^(N/K+1)组N位哈希值,由N、K调整算法时间和空间复杂度,按照广义生日算法进行数据碰撞求解,经条件验证获得最终解,大量的数据碰撞操作需要很高的内存带宽,它是一种memory-hard算法,目前主流实现方式是采用高性能多核处理器或者GPU计算
现代战争已逐渐演变为信息化战争,掌握信息的主动权是取得战争胜利的重要保障。瞬时频率测量(Instantaneous Frequency Measurement,IFM)是电子战的关键技术之一,通过快速并准确的获取目标的频率信息能够实现对目标对象的侦查、预警、干扰等目的。且在雷达和无线通信系统中通过对多普勒频移(Doppler Frequency Shift,DFS)和到达角(Angle Of Ar
Micro RNA是一类长约18-24 nt的内源性非编码RNA,是各种生理过程的重要调控开关。Micro RNA的异常表达与肿瘤的无限增殖、血管生产、免疫逃逸、侵袭、迁移和粘附密切相关,是新兴的肿瘤标志物。因此,micro RNA的快速精准检测对肿瘤疾病的早期诊断和病理分析具有重大的意义。与基于荧光染料或量子点的纳米探针相比,以稀土上转换纳米材料(UCNPs)为核心的micro RNA纳米探针具
郧阳汉江公路大桥位于汽车城十堰以北27公里处的湖北省郧县城关.该桥为湖北省“八·五”期间的重点工程项目,也是交通部“八·五”科技进步“通达计划”中《地锚式大跨径斜拉
会议
工业化城镇化步伐的加快使得全球对能源的需求激增、环境污染日益严重。而光催化技术清洁安全,在催化剂作用下可实现太阳能到化学能的转化,其中光解水和光催化还原二氧化碳可以分别生成氢气和一氧化碳等清洁燃料,能有效缓解全球能源危机和环境问题。因此,许多科研人员致力于半导体催化剂的改性和新型光催化材料的开发,构建高效的光催化剂对提升光催化性能至关重要。近年来,金属有机框架(Metal-Organic Fram
近年来,智慧城市迅速发展,该场景下物联网设备交互产生海量的、种类繁多的网络数据流量,为网络的管理和分析工作带来了压力。网络流量分类任务是网络管理和分析的基础性工作。高效且高准确率的识别分类网络流量能够为网络提供安全保障,同时也是保证网络服务质量和效率的关键一环。传统的网络流量分类机制包含特征工程和分类模型两部分。工作流程需要首先借助特征工程方法对原始数据抽取特征,然后将特征输入到传统分类模型得到分
近年来,卷积神经网络(Convolutional Neural Networks,CNN)技术在诸如人脸识别,行人检测,自动化生产等场景中获得了广泛的应用。然而,由于CNN对计算和存储资源的需求较大,在一些资源受限制的移动设备和边缘计算设备上,原始CNN模型难以直接部署,这限制了CNN的应用范围。因此,针对CNN压缩的相关技术是目前神经网络在实际应用中的一个重要研究方向。在现有的CNN压缩技术中,
在初中阶段的语文学科教学中,作文训练是语文学科的重要组成部分。它扮演着提高学生思维能力和语言表达能力的角色,但是作文训练令初中语文教师困扰,不为学生所喜欢。2011年教育部颁布的《义务教育语文课程标准》(以下简称为“新课标”),关于写作教学,指出“写作是运用语言文字进行表达和交流的重要方式,是认识世界、认识自我、创造性表述的过程。写作能力是语文素养的综合体现”。自2017年以来,通过对长春市九台区