基于随机投影的聚类问题研究

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:lanangel1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代社会的发展伴随着大量数据的产生,数据量之大已对现有的计算力和传统的数据分析算法提出了挑战,因此能够在可接受的时间内完成对大规模数据的数据分析任务是一个有重要意义的研究问题。目前面对大规模数据时,人们通常采取降维方法对数据进行降维,然后再对降维后的的数据执行数据分析任务,如聚类分析,回归分析等任务。聚类算法是机器学习中重要的领域,聚类算法的思想是将数据点划分为多个簇,保证同簇内的数据点相似性较高,不同簇间的数据点相似性较低,得到数据点的簇划分后,数据潜在的内部结构也显露了出来。但当聚类算法应用在高维数据中时会面对计算量急剧增加的问题。这时我们可以将聚类算法和降维方法结合在一起。常见的降维方法可分为两类,分别是特征提取方法与特征重构方法。本文中主要研究了一种名为随机投影的降维方法。随机投影的理论依据是存在这样一个映射,高维空间中的点可通过该映射被映射到一个低维空间中,同时保证映射前后的数据点间的距离以较大的概率保持不变。本文研究了随机投影在K-Means,谱聚类等聚类算法中的应用,实验结果表明经过随机投影后,聚类算法的运行性能得到了有效的提升,另外聚类结果并未受到明显的影响。在实际应用聚类算法时,人们经常遇到的一个问题是一些聚类算法需要指定聚类簇数,而在现实中,数据集的聚类簇数通常都是未知的。本文研究了这一问题,并提出了一种基于随机投影确定聚类簇数的算法。算法的核心思想是使用随机投影方法将原始样本集多次投影。因为随机投影方法能保证投影时尽可能保持数据的原始信息。那么当选取到符合数据内部结构的聚类簇数的情况下,使用聚类算法对这些投影后的数据集聚类时,即使在随机投影这一随机性因素的影响下,这些聚类结果仍然应该趋于近似。本文将该方法在几种数据集上做了测试,实验结果显示该基于随机投影确定聚类簇数的方法可以较准确的选择出符合数据真实情况的簇数值。在与其他几种确定聚类簇数的方法的对比中,我们提出的方法的表现也位于前列。在论文的最后,我们对该基于随机投影确定聚类簇数的方法中涉及到的参数设置做了一些探究实验。结果显示提高投影次数可有效的提升该方法确定聚类簇数的性能,但会以增长运行时间作为代价。
其他文献
进入21世纪,世界能源、环境以及粮食危机相继爆发,微藻在这三大领域都具有巨大的开发利用前景,而成本问题一直是影响其技术产业化的重要瓶颈,因此提高微藻生产效率,降低微藻生产的成本十分必要。盐碱土中含有大量微藻生长所需的营养盐,而我国盐碱地面积近1亿公顷。本文将利用再生水淋洗盐碱地,获得经过滤的含盐洗涤水,通过洗涤水养殖微藻,获得微藻生物量及有价值的产物资源。该研究将为今后盐碱地修复及高价值微藻养殖的
PI3K-AKT信号通路是最具胰岛素敏感性的信号通路之一,前人对其进行了较为广泛的研究,揭示其可参与细胞的生长、发育、分化等过程。多项研究表明,PI3K-AKT信号通路可以调节一
随着科技的飞速发展,人工智能、大数据、云计算、类脑神经计算等逐渐进入大众视野。新时代下信息数据呈爆炸式增长,传统的计算处理信息模式已经满足不了日益增长的数据需求。
对神经网络的运行机制,尤其是神经元之间的信息传递机制的探索对理解人类的认知行为有重要的意义。有可激发元素的网络作为刻画神经元之间信息传递的离散模型在模拟真实世界
四足机器人具有良好的运动灵活性和环境适应性,在野外等复杂环境的作业中体现出了绝对的优势,良好的交互方式将大大提高四足机器人的操控性。与语音识别、人脸识别、脑机交互
华北落叶松是我国重要的人工林资源,对防风固沙和固碳增汇起着重要作用。本研究以山西太岳山不同密度、林龄的华北落叶松人工林为研究对象。选取四种不同密度林分,间伐强度分别为0%、15%、35%、50%,选取30a、40a、50a的华北落叶松纯林和15a、26a和40a的华北落叶松混交林。通过探究不同林分土壤团聚体含量占比,解释土壤团聚体稳定性和团聚体内有机碳、全氮、全磷的分异规律,阐述土壤中各级团聚体与
随着经济的发展,工业化的推行形成生产要素的空间聚集从而带来城镇化现象。早期,我国空间城镇化发展迅速,但没有产生相应的人口城镇化。面对这一现状,党的十八大提出新型城镇化,强调以人为核心,实现从产业支撑、人居环境、生活方式等方面由乡到城的转变,最终实现人口的城镇化。新型城镇化建设过程中,基础设施的建设及产业结构升级等方面都需要大量的资金支持,仅靠财政支持显然不够。此时,金融体系能通过其资源配置、风险管
白带显微图像中白细胞的数量可以提示阴道炎症的严重程度。目前对白带中白细胞的检测主要依靠医学专家们的人工镜检,这种人工检查耗时、昂贵且容易出错。近年来,有研究提出基
本文以华北落叶松密度调控样地为调查对象,于2015年5月份-10月份的月初和月末,采用LI-8100 土壤碳通量测量系统对12块样地进行“原状呼吸、去除凋落物呼吸、去除凋落物切断根系呼吸”以及5cm以下土壤温湿度进行测量,2018年在原测量基础上添设“加倍凋落物呼吸”的测量。旨在研究不同间伐强度下生长季土壤呼吸及组分的变化规律和环境因子的影响机制,对今后合理有效的森林经营管理具有重要意义,为进一步
在我国城市化发展步伐不断加快的过程中,很多城市建设都需要大量土地,由此所进行的征地拆迁可以说是现代城市化发展下的产物。征地拆迁作为城市化进程中的重要工作,影响着经