【摘 要】
:
在数据大爆炸的时代,高维数据已广泛地存在于生产与科学研究领域。当前数据维度也变得越来越高,同时会带来研究上的困难,用传统的聚类方法对高维数据进行聚类将消耗非常大的计算量,这对有限的计算内存来说是一种很大的计算消耗和开销。如何有效地分析和管理这些数据信息变得非常重要,在复杂的该数据背景下聚类技术是对数据进行分类处理的重要手段。传统的聚类方法,如众所周知的模糊k均值算法,通常需要足够的数据才能找到一个
论文部分内容阅读
在数据大爆炸的时代,高维数据已广泛地存在于生产与科学研究领域。当前数据维度也变得越来越高,同时会带来研究上的困难,用传统的聚类方法对高维数据进行聚类将消耗非常大的计算量,这对有限的计算内存来说是一种很大的计算消耗和开销。如何有效地分析和管理这些数据信息变得非常重要,在复杂的该数据背景下聚类技术是对数据进行分类处理的重要手段。传统的聚类方法,如众所周知的模糊k均值算法,通常需要足够的数据才能找到一个好的聚类划分,而这些算法在处理数据集不足的情况下是无效的。数据集不足很容易干扰数据聚类结果,难以解决空间区域内多类型目标聚类质量不可公度性,并且现有算法解决群体智能集的高维异构数据具有较高复杂度。为了克服上述问题,本文首先提出了群相似度来扩展成为多维度相似空间区域,并以循序迭代聚类目标函数的最优值,此时得到聚类结果作为聚类质量的度量标准。在此基础上,提出了一种模糊高阶混合聚类(F-HOHC-SIS)算法,该算法能有效地控制算法的收敛速度,减少计算时间,提高了算法的抗干扰能力。该算法使高维异构数据聚类目标函数在有限迭代数内达到最优值。本文利用真实数据集对聚类质量进行了分析,真实数据集和仿真实验均验证了F-HOHC-SIS算法的有效性。对高维数据直接采用降维的方法会破坏原始数据的完整度,使原始数据不能等价转换。为保证原始数据的完整度,本文提出构建多核空间方法。多核空间旨在减少多维度数据计算复杂度,使原始空间的(高维)样本映射到高维特征空间中求内积。但此方法存在一弊端,当高维特征空间维数可能会很高甚至是无穷维,直接计算内积通常是非常困难的。为了克服这些局限性,本文进一步提出了一种高阶模糊聚类(HOFC)算法,称为多核均值漂移(MKMS-HOFC)。该算法采用基于多核空间的均值漂移对数据进行划分,并在高维核特征空间中将原始维扩展为新的多维。MKMS-HOFC首先将输入点映射到多核的高维特征空间中,并构建一个分离的超平面,使该空间中的多个簇之间的边界最大化。然后,多核通过HOFC找到最佳超平面。该方法在特征空间中迭代搜索样本点最密集的区域,利用HOFC的多维可公度性提高了聚类性能。本文在人工合成和真实的数据集上做了广泛实验,利用真实数据集分析聚类质量,实验表明了MKMS-HOFC算法的优异性能和实用有效性。
其他文献
近年来,随着汽车保有量的持续增长,许多城市道路承载容量已达到饱和,交通出行安全问题、拥堵问题、环境污染问题等日益突出。在这种背景下,我国大力推崇公共交通的发展。随着车联网技术、通信技术、计算机辅助技术以及大数据、云计算、区块链等信息技术的快速发展,越来越多的城市开始建设智能公交系统,智能公交的建设有利于解决上述问题,且符合智慧城市以及绿色发展的理念。另外,随着智能公交建设的规模越来越大,需要部署大
随着软硬件技术的进步,三维模型被广泛地应用于生活的方方面面。由于近些年三维扫描和三维建模技术的提升,使得三维模型的获取变得更加简单,三维模型的数量处理也日益频繁。面对越来越庞大的模型库,快速准确地检索用户需要的模型成为了亟需解决的问题。框架作为三维模型的一种表现形式,在简化表达的基础上可以最大程度保留三维模型的几何形状信息,是检索三维模型的优秀特征。本文以三维模型框架为研究基础,调研了模型框架提取
股市是上市公司筹措资金和股民投资理财的重要途径。影响股票价格的因素众多,股市波动存在不稳定的特点。尤其是在市场情绪作用下,股市波动具有明显的情绪化倾向,波动更加不稳定。本文根据直接或间接反映市场情绪的数据,从市场情绪的不稳定性和临界性出发,对股市趋势拐点进行研究,具体研究内容如下:(1)股市的情绪化倾向是股票市场具有高度不确定性的主要原因,直接利用历史数据的股票趋势预测方法,难以适应市场情绪的多变
车辆型号的识别在智能交通领域有着广泛的应用前景,其中识别任务主要使用监控系统的车辆图像。日间车辆图像的识别准确率较高,但是夜间车辆图像饱受弱曝光、大量噪声、多重光源等的干扰,这些干扰增加了车型识别任务的难度,因此针对夜间车辆的暗光增强研究在智慧城市中具有重大意义。在增强过程中,不同的增强方法会产生不同的噪声、欠曝光、过度曝光和模糊等现象。针对这些现象,本文基于卷积神经网络(convolutiona
人体运动数据被广泛应用在影视制作、医疗康复、体育训练和虚拟现实等领域之中。为了满足用户在不同场景下的需求,出现了多种运动采集设备,形成了多种模态的人体运动数据,多模态人体运动数据的融合可以用于运动数据去噪和运动合成等研究。然而,现有的多模态人体运动同步数据集的数据量和动作种类有限,为支撑更具通用性的研究,设计并采集一套公开的多模态人体运动数据集是亟待解决的问题。因此,本文基于现有的运动采集设备设计
2021年,元宇宙的概念火遍全球。虚拟化身是用户在数字化场景中使用的形象,是元宇宙与现实世界的接口。在元宇宙背景下,用户对在虚拟环境中构建自己第二分身——虚拟化身的需求将会增加,并且用户更倾向于自定义虚拟化身。自定义虚拟化身是指用户根据自身喜好在虚拟场景中设计并使用的形象,其特点是只有模型没有运动数据。所以在实时驱动这种自定义虚拟化身时一般是需要实时的运动重定向技术生成运动数据。然而,研究发现,一
在当今学术合作中,人们对不同领域、不同学科的学术合作的兴趣与日俱增,但人们仍然对学术大数据中跨学科、跨领域的动态协同合作机制知之甚少。以往的研究要么主要集中在学术网络拓扑上,而忽略了学术网络中的属性,要么主要研究学术网络中节点的属性,而忽略了学术网络中拓扑关系。为了进一步理解学术大数据中的主题和结构变化模式进而探究其中的协同合作关系,我们首先总结归纳了动态学术社交网络关系的分析以及图可视化方法,然
高光谱图像因其丰富的光谱信息而获得广泛的关注,但由于传感器硬件设备的局限性,使得高光谱图像的空间分辨率较低,这在很大程度上限制了高光谱图像的实际应用场景。为了解决这个问题,一种主流的做法是将低空间分辨率的高光谱图像与高空间分辨率的多光谱图像进行融合。高光谱图像作为一种典型的三维结构数据,具有光谱和空间两种重要属性,能否充分利用这些属性的特征成为融合算法非常关键的一步,为此,本文开展了如下工作:(1
早期隔行(交错)视频通常包含复杂的交错横纹和各类压缩伪影,严重影响了主观视觉体验。尽管近年来针对早期视频的高清重建技术取得了很大进展,但有关视频去隔行研究依旧匮乏。随着人们对视频内容不断增加的多元化需求,早期经典视频的增强重建受到了越来越多的关注和应用。针对上述问题,本文提出了一种基于多帧的隔行视频联合增强模型,实现低质量隔行视频的交错去除,压缩伪影去除,超分辨率等增强任务,同时还将所提算法进行改
随着整个社会进一步的网络化和数字化,越来越多的场合需要对人的真实身份进行有效认证。掌纹识别作为一种新兴的生物特征识别技术在过去二十年里受到了广泛的关注。感兴趣区域(Region of Interest,ROI)的准确提取是掌纹识别的关键步骤,直接影响后继的识别性能。然而,在已有的研究中,不同学者提取的ROI大小、位置、方向都不尽相同,为以后大规模应用带来潜在的隐患。深度学习在近年的计算机视觉任务中