大规模数据的哈希编码与聚类分析

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:j2eeweb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是一类无监督学习方法,不依赖于数据标签、相似性关系等先验知识,一直是生物信息学、计算机视觉等领域中重要的数据分析技术。近年来,这些领域的数据呈规模大、维数高、增长速度快等新特点,而传统聚类方法在效率和性能两方面并不能很好满足现有的应用需求。因而,研究新型聚类算法具有重要的现实意义和应用前景。密度峰聚类(Density Peaks Clustering,DPC)和稀疏子空间聚类(Sparse Subspace Clustering,SSC)是近年来出现的两类新方法,已广泛应用于数据挖掘和计算机视觉。但是,它们的时空复杂度较高,不适用于大规模数据应用,且算法实现存在复杂的数据依赖,难以并行。本文将引入哈希编码来改进两类聚类算法,旨在降低它们的时空复杂度和并行难度,并设计相应的并行聚类算法。本文所研究内容应用前景广阔,一方面密度峰聚类算法和稀疏子空间聚类算法已被广泛用于多个领域,改进后的算法进一步扩展了它们的应用范围;另一方方面本文基于新算法尝试解决质谱数据聚类、运动分割、人脸识别等问题,这些在生物信息学和机器视觉领域均有重要意义。本文包含两个创新点,阐述如下。一、针对密度峰聚类难以并行的问题,本文提出基于局部敏感哈希(Locality Sensitive Hashing,LSH)的密度峰聚类算法LSH-DPC,并对其并行实现。通过设计合理的函数,哈希算法能以极低时间代价对数据进行粗粒度划分,在划分后的集合上在进行密度峰聚类时间复杂度将显著降低,另外引入哈希算法还降低了密度峰聚类的并行难度。在大规模质谱数据集上的实验结果表明,相比原算法,LSH-DPC算法显著降低算法时间复杂度,同时聚类效果基本不变。二、针对现有稀疏子空间聚类准确性不足、时空复杂度过高等问题,本文分别提出平滑稀疏子空间聚类(SM-SSC)和高效稀疏子空间聚类(LSH-SSC)算法。平滑理论和稀疏理论相结合,能得到更加准确的相关矩阵,继而提升聚类准确率。而在哈希算法的划分结果上进行聚类可以显著降低算法时空复杂度。在运动分割和人脸识别数据上的实验结果表明,SM-SSC比SSC有更高的准确率,在运动分割数据上的实验表明LSH-SSC比SSC算法时间复杂度更低。
其他文献
目的设计和研发一种辅助肝脏肿瘤精准化消融治疗的增强现实导航系统,并验证其可行性和实用价值。材料和方法该系统集成了图像分割、三维重建、图像配准、定位和跟踪、呼吸运
石墨烯是一种具有高导电性、高化学稳定性和极高的理论比表面积的新型二维材料。作为石墨烯的衍生物,氧化石墨烯具有水溶液分散、易于加工、可调控等优点而备受关注。在电化学传感器的研发中,将氧化石墨烯与其它功能材料复合,充分利用各组分的优异特性,可以开发出具有高选择性、响应快速、高灵敏度、操作简单的电化学传感器。然而,利用氧化石墨烯制备的还原氧化石墨烯易发生团聚,导致其比表面积远低于理论值、不利于待测物质的
近几年来,无线体域网逐渐成为了国内外的研究热点。无线体域网属于小型短距离的无线传感器网络,其在医疗健康保健、体育训练指导、部队军事训练以及交互游戏娱乐等领域均有广
BOT模式作为PPP体系下最主要的公私合作范式之一,随之其不断发展与运用,与此相关的合同争议与纠纷也日益增多,尤其是在BOT公私合作模式大规模实施的背景之下,BOT合同性质与内
本文利用锥值映射的无限上连续性条件而不是上半连续性条件,建立了两类具变动控制结构的向量拟均衡问题的最优性条件.论文还运用投影技巧,给出了求解强向量均衡问题和集值映射的不动点问题的公共解的迭代算法,并获得了算法的收敛性结论.论文所得主要结果不仅推广和发展了近期文献中相关的研究成果,也丰富了向量均衡自身的理论与算法,为向量均衡在经济、交通和生活等实际问题应用提供了重要的理论依据.全文共分为四章,具体如
智能交通系统(Intelligent Transportation System,ITS)的研究与发展对目前的交通严重拥堵、事故频繁发生、环境愈发污染等重大问题有良好的改善作用,交通参数提取技术研究和
随着人民生活质量的提高,运动场馆、电影院、商场等成为人群聚集场所。人群聚集带来的安全问题成为当今社会关注的焦点,目前主流方法是在监控视频中采用人群密度估计方法,通
目的:近些年,在中国大学生群体中,强迫症状比其他心理问题更突出。认知灵活性损伤是强迫症重要的认知损伤之一,认知灵活性对个人的发展和适应环境具有重要作用。有强迫问题的
软件开发过程中存在着许多风险因素,这些因素影响软件开发进程。需求作为软件开发的起点和根本目的,对软件开发至为重要,但在开发过程中需求不可避免地会出现变更的情况,一旦
难降解有机废水的处理是目前水处理的难点,臭氧氧化技术作为一种高效的高级氧化技术,目前已被广泛应用于难降解有机废水的处理。在酸性条件下,臭氧分子的氧化还原电位为2.07V,臭氧分解产生的羟基自由基的氧化还原电位为2.85V,因此臭氧氧化法具有非常强的氧化能力,正因为如此,臭氧氧化法对难降解有机废水具有良好的处理效果。本论文研究了臭氧氧化橙黄G、靛蓝、甲基蓝等17种难降解有机污染物在5个不同温度(T1