基于Spark的罪犯数据聚类研究与应用

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:jjsubin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,国家不断加强监狱管理信息化建设,进一步提高监狱系统罪犯管理水平。在大数据时代,监狱单位每天产生大量蕴含着丰富信息的数据,利用数据挖掘技术从海量罪犯数据中挖掘出有用的信息,能够帮助监狱管理人员了解罪犯具体情况,通过整体信息做出优化的管理决策,实现监狱管理的智能化。为了实现对海量罪犯数据的有效挖掘,在司法行政执法管理平台一期建设项目组中,参与设计了利用Spark MLlib的K-means算法对海量罪犯数据进行聚类分析的方法。主要研究内容与结论如下:首先,针对目前大数据环境下对海量罪犯数据进行数据挖掘的需要,提出了一种基于Spark的罪犯数据聚类方法。传统的聚类算法在大数据量和高维数据空间的应用中计算效率低性能差,由此我们设计了一种基于Spark MLlib的K-means聚类算法。系统主要包括Hadoop和Spark两部分,介绍了 Hadoop和Spark的各种重要框架并进行系统整体架构的设计。其次,根据业务需求及罪犯数据实际特点搭建研究所需要的分布式集群并配置开发环境。项目使用的开发环境是基于Spark的分布式集群环境,首先在搭建Hadoop集群基础上搭建基于YARN资源管理器的Spark分布式集群,借助Hadoop底层的HDFS完成海量数据的存储,利用Spark实现大规模数据的快速分布式计算。最后,对监狱罪犯数据进行预处理并实现Spark MLlib的K-means聚类分析。我们共选取司法部大数据平台系统中的6851条罪犯数据,选取刑期、捕前职业、捕前文化程度、罪名四个维度,得到属于不同簇类的罪犯数据聚类结果并进行可视化展示,根据罪犯密集与稀疏分布情况确定重点关注类别和对象。然后分别在MapReduce框架和Spark框架下对K-means算法进行性能测试与对比,结果显示,对不同数据规模的罪犯数据进行K-means聚类,Spark比MapReduce快大约5~10倍,验证了 Spark较MapReduce在数据处理方面有更强的运行效率,该方法达到了高效率、高性能和高准确性的目的,验证了该方法的可行性。
其他文献
电容去离子(Capacitive deionization,CDI)电极通常以碳材料为主,导致其脱盐容量和电荷效率在高浓度盐水中不甚理想。基于此,本论文研究工作采用层状双金属氢氧化物及其衍生物作为氯离子脱嵌电极,碳材料作为钠离子吸附电极,构筑了杂化CDI(Hybrid CDI,HCDI)系统,以提高系统的脱盐性能。在脱盐过程中氯离子通过插入层状双金属氢氧化物及其衍生物的层间,与此同时,钠离子通过静
随着世界人口的不断增加,全球人口对食物和各种农产品的需求呈迅猛增长之势,这也一直是我国科学家不断为之奋斗的目标。而同时全球尤其是我国城镇化水平日益提升和在农村从事农业生产的劳动力数量逐年降低,使得农产品日益增长的需求与农业生产劳动力逐年减少呈现越来越大的矛盾。因此,推动农业技术自动化、智能化就成为我国乃至全球农业现代化发展的重要动力和助推器。农业技术自动化、智能化主要体现在农业生产智能机械化,在我
无设备无线定位与动作识别(DFLAR)是一种新兴的技术,这种技术不需要目标佩戴任何设备,能够很好地保护个人隐私,在有烟雾、黑暗、甚至有遮挡的情况下都能够进行定位及动作识别。由于人体对无线信号有良好的反射作用,所以可以通过监测Wi-Fi信号的变化来估计人的位置和活动,但如何表征目标的不同位置和动作对Wi-Fi信号的影响是关键性的问题。由于无线信号是无法进行标注的,所以无法直接对所收集到的信道状态信息
随着我国经济、文化日益发展壮大,国家对科教文明越来越注重,尤其是对早期教育的重视日益提升。与此同时,国家相继出台了一系列相应的教育扶持政策,推动早期教育的发展。在如此形势下,各种早教机构应运而生,并且能够带来巨大的经济和社会效益,这也让早教机构在全国各地得以迅猛发展。相对于一线城市,我国的三四线中小城市的早教市场呈现出起步晚、发展快的趋势,这势必会造成早教业发展的不完善,同时也给中小城市的早教机构
本论文讨论了非定常非线性对流扩散方程的EQ1rot非协调元的逼近问题.通过利用积分恒等式和平均值技巧,并借助于EQ1rot元自身所具有的两个重要性质:(1)对于EQ1rot有限元来说,当
随着物联网技术的快速发展,基于传感器数据的模式分析系统为家居安全、病情监测等领域提供了一种有效解决方案。其中,基于环境传感器的模式分析系统以其低成本、低侵入性等特点,具有良好的实用价值。然而,基于环境传感器的分析存在如下问题:由于传感器的密集部署和延迟关闭,收集到的传感器数据中包含噪声,导致基于传感器数据的分析效果下降;缺乏有效的传感器序列分段方式;缺乏细粒度的用户行为模式分析研究等。本文以智能家
高中物理2017年新课标提出“为学生终身发展、应对现代和未来社会发展的挑战打下基础”,这与美国心理学家卡罗尔·德韦克教授提出“重新定义成功的思维模式,促进终身成长”这一观点不谋而合,对思维模式的培养就是对新课标“授人以渔”思想的一种体现。在国外,根据德韦克的理论,把成长型思维模式应用于教育教学中已经取得了一定的成果。想要把成长型思维模式应用于教育教学中,就必须了解现在高中阶段学生的思维现状,于是笔
图像超分辨率(S uper-resolution,SR)是低层次计算机视觉领域中的一类经典问题,其目的是从一幅低分辨率(Low-resolution,LR)图像中重建出所对应的高分辨率(High-resolution,HR)图像。由于在低分辨率到高分辨率空间中,存在着一对多的图像映射关系,所以超分辨率重建是一种不适定问题。在大尺度重建任务中,图像丢失的信息更多,高质量的超分辨率重建是一项极具挑战的
色散-耗散方程、高阶KdV方程以及反应扩散方程等都是具有重要意义的几类非线性微分方程.本文运用动力系统的方法,特别是几何奇异摄动理论,结合Schauder不动点理论,上下解方法
随着互联网信息量的激增和信息类别的不断多样化,快速、精确地获取有效信息变得愈加困难,致使基于文本内容的语义分析已成为自然语言理解的重要研究分支。另一方面,在大数据时代,随着电商的蓬勃发展,如何利用语义分析挖掘商品评价信息中潜在的情感态度,推动网络舆情监督、商品售后自动抉择,已是急需研究的重要课题。为此,本文以中文字、词、句释义为基础,研究基于深度学习与注意力机制的文本情感分析。研究工作不仅有助于推