【摘 要】
:
大数据时代,数据与自然资源、人力资源是重要的战略资源,隐含着巨大的价值,研究数据分析是大势所趋;数据可视分析是数据分析的重要方法,因而也受到了高度重视。首先研究了大
论文部分内容阅读
大数据时代,数据与自然资源、人力资源是重要的战略资源,隐含着巨大的价值,研究数据分析是大势所趋;数据可视分析是数据分析的重要方法,因而也受到了高度重视。首先研究了大规模数据可视化存在的问题和限制,以及相应的解决方法,在分析比较现有方法的基础上,提出一个基于随机抽样技术的数据可视化框架,可以有效地改善可视化现状。该框架使用文中提出的网格密度区间聚类算法来预处理数据。聚类算法将网格密度的值域划分为若干个区间,把属于同一密度区间的紧相连的网格聚为一类,不同密度的网格划分到不同的类中,聚类将整体数据划分为有限个区域,数据在这些区域内趋于均匀分布。可视化框架对每个区域随机抽样,各个区域抽取的样本量与区域的数据量和密度相关,以此来反映数据的整体分布。另外框架引入了可视化精度和人眼分辨率。根据可视化精度确定样本量来控制数据密度,不同的可视化精度对应不同的样本数据。根据人眼分辨率,算出在可视化精度下可识别的最短距离,数据点间距离小于最短距离时会重叠,计算样本的重叠度,然后从中选择重叠度较低的样本,这样可以有效地解决可视化数据过密和严重重叠的问题。最后,通过实验表明了本文可视化框架的有效性和可用性。
其他文献
密码破译技术的快速发展,一方面促进了学者们对加密算法的深入研究,另一方面对现有算法的密钥长度,提出了更高的要求。素数,作为几种常用加密算法的密钥参数,研究价值不言而
随着监测环境的日趋复杂,迫切需要将图像、音频、视频等信息量丰富的媒体引入到以传感器网络为基础的环境监测活动中来,实现细粒度、精准信息的环境监测。图像传感器网络是由
在网络上,由于视频经常被复制、编辑并重新上传,导致出现了很多相似甚至重复的视频,对视频进行基于内容的相似性检索可以有效解决该类问题,对于视频内容的发布商以及监管者而
Gallager在1962年提出的低密度奇偶校验码(Low-Density Parity-Check Codes, LDPC)是一类可以用稀疏矩阵或二分图定义的线性分组码。它具有性能逼近香农限、描述方便、易于进
本体(Ontology)的概念起源于哲学领域。自20世纪90年代以来,国际计算机界举行了多次关于本体的专题研讨会,如今本体技术已经发展成为知识表示、知识管理、知识共享、知识复用
衡量链接器性能的关键指标除了链接速度以及生成的可执行文件的性能外,就是可执行文件的大小。对于当今大型项目而言,程序工程中往往包含一些无用的代码块,这些代码块在一定
虚拟人的运动控制技术早已成为仿真系统,科学实验,三维动画以及游戏娱乐等方方面面中不可或缺的一部分,随着计算机硬件的发展,虚拟人运动控制技术必将在将来扮演更加重要的角
无线传感器网络通过大量部署于目标区域的传感器节点采集环境信息、建立自组织网络、以多跳方式传输数据,获得感兴趣区域的各种物理信息。目前已广泛应用于军事侦察、工农业
现代科学理论在研究与实践中存在大量与组合优化、自适应等相关的问题。使用常规方法解决这类问题,除一些简单情况之外,人们对于大型复杂系统的优化和自适应问题的处理显得无能
职业教育处于一种特殊的教育阶段,它所要求的是学生掌握的技能和理论的结合,注重培养学生实践操作能力。随着职业教育改革的不断深化,运用建构注意学习理论构建新型的教学模式,促