【摘 要】
:
当今互联网日渐繁荣,我们获得的信息也随着科技技术的发展而迅速增长,大数据的发展已经进入白热化阶段。然而各领域接触到的数据往往都是高维数据,成百上千的维度为后续的分析以及计算带来了巨大的挑战,许多常用算法在高维数据集中往往失效。为了能从高维数据中挖掘并分析其潜在信息,有关数据降维的一系列算法应运而生。数据降维的核心思想是:在高维数据集中对数据采用某种映射,对高维数据进行变换得到其在低维空间的表示,使
论文部分内容阅读
当今互联网日渐繁荣,我们获得的信息也随着科技技术的发展而迅速增长,大数据的发展已经进入白热化阶段。然而各领域接触到的数据往往都是高维数据,成百上千的维度为后续的分析以及计算带来了巨大的挑战,许多常用算法在高维数据集中往往失效。为了能从高维数据中挖掘并分析其潜在信息,有关数据降维的一系列算法应运而生。数据降维的核心思想是:在高维数据集中对数据采用某种映射,对高维数据进行变换得到其在低维空间的表示,使其可以应用到已有的低维空间下有效的算法。本文提出了一种基于全连接神经网络的变分自编码器模型和t分布随机邻域嵌入算法相结合的方式进行高维数据的无监督降维。我们设计编码器和解码器均为三层全连接神经网络结构,编码器提取样本数据特征,再通过解码器逼近原始输入样本。网络的训练采用小批量梯度下降法,利用编码器将高维数据降维至中间维度,再结合t分布随机邻域嵌入算法进一步降维,然后对低维数据采用K-means聚类分析。实验证明:变分自编码器模型在样本量较大,维度高的数据集中,黑盒变分推断提高了模型的可变性和通用性,使得降维效果较好。其次,t分布随机邻域嵌入算法一定程度上保证了高维空间数据样本的概率分布与低维空间下数据的概率分布的一致。当编码器对高维数据初步降维至中间维度后,t分布随机邻域嵌入在中间维度空间距离较远的数据点映射到低维空间中避免了数据点聚集,使最终结果与中间维度空间保持最大程度的一致性。与传统的PCA降维方法比较,本文方法能更有效的提取数据特征,在聚类分析中提高了类间离散度,有较好的聚类效果。最后给出数值算例来说明本文算法的有效性。
其他文献
人们研究曾国藩“礼学经世”的主张,对“礼”的内涵不够重视,或者泛泛而谈,或者把“礼”当作是笼统的道德规范,而忽视其中宗教仪式性的内容,其实是从现代人的世俗心态出发,滤
<正>一、起言"伎乐"(即"伎乐舞/くれのうたまひ")作为正式的假面戏剧在日本艺术史上占有重要地位,其样式及传人过程自古深受研究者的重视。"伎乐"也作"吴乐",如后文所述,它可
对河南省调查数据的分析表明,农民受教育程度越高,越有利于农业生产资源在农村生产中的优化配置,农民更倾向于采用先进的生产技术来提高劳动生产率;随着收入的提高,农民对教
二甲双胍作为治疗2型糖尿病的一线用药,广泛受到各临床治疗指南的推荐。但是,二甲双胍的临床治疗效果及不良反应存在着显著的个体差异。有机阳离子转运蛋白与二甲双胍在体内
因环保需要,燃气锅炉正越来越多的取代燃煤锅炉运用于工业生产中。由于其结构特点,在节能器的部位经常发生低温腐蚀的情况。在对某台燃气锅炉检验时,发现其节能器部位存在大
通过考虑投资者在不同时期的情绪变化建立了受投资结果影响的情绪资产定价模型,模型分析表明:若有信息投资者在不同时期收到符号相同的信号,则投资者的市场情绪加重,表现为资
普洱市(原思茅市)位于云南省西南部,地处北纬22°02’~24°50’,东经99°09’~102°19’之间。地势北高南低,最高海拔3370m,最低海拔317m,高差3000m,属于热带、亚热带
为了找出电流斑在扫描电镜下的特征性改变,作者用扫描电镜和能谱测定,配合光镜观察,对电击死者的22个皮肤电流斑和尸体上造成的18个皮肤电流斑和金属灼伤,进行了对比观察。结
随着社会经济的快速发展,社会竞争激烈,人们面临着较大的上学、就业、工作和家庭压力。在以硬性景观为主体的城市环境中,如何缓解这种由紧张生活节奏和社会生活压力带来的亚健康
<正>1923年,陶行知致力于平民及乡村教育。他脱下西装,换上布衣草鞋,住到牛棚里。他觉得,只有这样,才可以了解自己的祖国,进而找到真正贴近中国"国情"的教育道路。然而,四万