高维数据可视化

来源 :山西大学 | 被引量 : 0次 | 上传用户:chzhao2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,人类在生产和生活活动中所创造出的数据量以前所未有的速度一直增长。数据可视化技术将大量的数据转化为可供人们直接观测的图形,不仅让人能快速理解数据的表面信息,同时也能更加轻松的推演出数据表象之下所隐含的逻辑关系,这是对这海量的数据进行高效处理,并从中获取有价值的信息的一大重要手段。平行坐标图是诸多的多维数据可视化方法中的一种。它将高维数据的多个维度一一映射为相互平行的多条坐标轴,同时将高维数据集显示为一组与平行坐标轴相交的折线。然而当数据维度过高时,平行坐标图有着需要的显示空间过大,有效性高度依赖于维度的顺序等缺陷。虽然有学者提出了将高维数据集划分按维度相关性划分出多个子集以构造多个低维平行坐标图的思路,但现有的方法中,大多思路是使用经典的MDS算法进行布局并以此划分相关维度的子集,这种布局方式可能导致维度间距离的失真从而带来误差。故本文针对此问题做了研究,并提出一种新的布局方法。基于MDS算法的缺点,本文选择利用Isomap算法来代替MDS算法进行布局。Isomap算法中对长距离的计算已被固有测地距离的估计所取代,因此用该算法计算得到的布局结果,能减小距离的失真带来误差,从反映出维度间的更准确的相关性强弱关系。具体算法如下所示。首先,将数据集每一个维度看作一个向量,并根据向量间的距离,利用Isomap算法将维度映射成点,布局在二维平面上。然后根据需求设定阈值,并利用BronKerbosch算法筛选出具有相关性的维度子集。其次,利用贪婪算法思想对子集中的维度进行排序,并构造出多个低维平行坐标图。为了增强视觉有效性表达,按样本类别将折线着色,以提高平行坐标图的美观性及信息表达能力。本文选用两组数据集进行试验,实验结果表明,由Isomap算法布局所筛选出的维度子集,其维度间的相关性比MDS算法得到的维度子集相关程度更高。最后,归纳和总结了本文所做的工作,提出了研究方法仍存在的不足之处,并对本文接下来的研究方向和目标进行了展望。
其他文献
目的:探讨第三气体信号分子硫化氢(H2S)对硫酸铍(BeSO4)诱导的人支气管上皮细胞(16HBE)细胞凋亡的影响及其机制,为进一步阐明硫酸铍的毒性机理及内源性硫化氢的调控机制提供依据。
社会抚养费作为我国计划生育的代名词,其性质一直以来都备受争议,虽然官方明确将其定性为“行政征收”,但认可其实质为“行政处罚”的也不再少数,社会公众也普遍认可“超生即
作为享誉全球的当代史学大家,格奥尔格·伊格尔斯(Georg G.Iggers)不仅在史学理论及史学史领域成就斐然,更关注、关切国际史学理论发展。在他的学术生涯当中,对中国史学理论
近些年来,由于对外汉语教学越来越重视汉语学习者语言交际能力的培养,学界对教材中话语的得体性研究也越来越多。本文以汉语水平中级及以上留学生为考察对象,以《发展汉语·
背景急性肝衰竭(acute liver failure,ALF)是一种与多器官功能障碍相关的高死亡率的疾病。由于ALF患者的病情进展快且较为复杂,并易受多种因素的影响,因此正确评估肝脏储备功
公务员考核制度是国家公务员制度的重要组成部分,是公务员管理的一项基础性工作。近年以来,在公务员系统内,平时考核作为一种新的绩效考核形式,逐渐显现出其重要作用,在越来
随着大数据分析的兴起,网络系统规模和复杂程度越来越大,精确建模越来越困难,黑盒优化技术越来越受到重视,而作为黑盒优化中最具有潜力和希望的方法,贝叶斯优化(Bayesian Opt
背景:急性呼吸窘迫综合征(acute respiratory distress syndrome,ARDS)是一种急性进行性呼吸衰竭,其临床特征表现为呼吸窘迫和顽固性低氧血症。ARDS在重症病房的发病率为10.4
目的:六价硫氟交换反应在有机合成化学、药物化学等方面有着广阔的应用前景,被称为新一代“点击化学”。在此,我们选择含有氟代磺酸酯的苯甲酸作为简单的单元模块分子,以多种
随着社会的发展,国家工作人员的受贿犯罪呈现新型化、隐蔽化、复杂化的趋势。2007年最高法、最高检《关于办理受贿刑事案件适用法律若干问题的意见》明确了受贿犯罪的多种新