论文部分内容阅读
伴随着当下信息时代的高速发展,大数据相关的应用成为了业界关注的焦点,通过数据驱动经济发展已成为全球许多强国的战略计划之一。然而人们由于认知不足或犹豫不定等原因导致获取的信息存在不确定性,因此得到的数据为不确定性数据,通常不能用一个精确的数值来表示。为了解决数据不确定性的问题,有学者提出了犹豫模糊集合等相关概念,在实际决策分析中具有重要的应用价值。本论文则针对当前犹豫模糊聚类算法存在的一些问题,进行了如下研究工作:
1.规范定义了犹豫模糊集合的相关概念。已有相关文献中对于犹豫模糊集合的概念定义不完善,部分概念只给出了文字说明,并未给出规范化的数学表达。有些文献给出了数学表达的定义,但其定义不便于解决聚类问题。由于以上原因,本文通过数学符号和数学公式对基本概念进行统一的形式化描述,以便准确地解决聚类问题。
2.提出一种结合数据集本身信息的权重公式和隶属度集合扩充方法。原有的层次犹豫模糊聚类算法对于权重的计算主要是通过平均分配的方法或是人为主观给定对应的数值,没有考虑模糊集合本身对权值的影响,缺少合理的权重计算方法。本文则结合变异系数理论给出了新的权重公式,同时提出了新的隶属度集合扩充方法,避免隶属度集合受到异常值影响,保证了数据集信息的原始性,同时提高了算法的鲁棒性。
3.提出一种基于密度峰值的犹豫模糊聚类算法。原有的犹豫模糊聚类算法存在过高的时间复杂度和空间复杂度,不适用于处理实际生活中大规模高维数据集。因此,本文算法通过优化权重计算公式和簇中心的计算方法,避免了算法的通过迭代更新簇心产生的消耗,将时间复杂度和空间复杂度从指数级降为平方级,提高了算法性能,使其能够有效地处理实际生活中犹豫模糊不确定数据的聚类问题。
4.提出一种犹豫模糊不确定数据的混合属性聚类算法。算法在基于密度峰值的犹豫模糊聚类算法的基础上进行扩展和优化,使其适用于包含数值属性和分类属性的数据集,同时给出了一种自动确定簇中心的方法,对于聚类簇数不确定的情况下给出有价值的参考,以及结合近邻思想和信息熵理论提高算法对噪声点和复杂结构数据集的适应性。
1.规范定义了犹豫模糊集合的相关概念。已有相关文献中对于犹豫模糊集合的概念定义不完善,部分概念只给出了文字说明,并未给出规范化的数学表达。有些文献给出了数学表达的定义,但其定义不便于解决聚类问题。由于以上原因,本文通过数学符号和数学公式对基本概念进行统一的形式化描述,以便准确地解决聚类问题。
2.提出一种结合数据集本身信息的权重公式和隶属度集合扩充方法。原有的层次犹豫模糊聚类算法对于权重的计算主要是通过平均分配的方法或是人为主观给定对应的数值,没有考虑模糊集合本身对权值的影响,缺少合理的权重计算方法。本文则结合变异系数理论给出了新的权重公式,同时提出了新的隶属度集合扩充方法,避免隶属度集合受到异常值影响,保证了数据集信息的原始性,同时提高了算法的鲁棒性。
3.提出一种基于密度峰值的犹豫模糊聚类算法。原有的犹豫模糊聚类算法存在过高的时间复杂度和空间复杂度,不适用于处理实际生活中大规模高维数据集。因此,本文算法通过优化权重计算公式和簇中心的计算方法,避免了算法的通过迭代更新簇心产生的消耗,将时间复杂度和空间复杂度从指数级降为平方级,提高了算法性能,使其能够有效地处理实际生活中犹豫模糊不确定数据的聚类问题。
4.提出一种犹豫模糊不确定数据的混合属性聚类算法。算法在基于密度峰值的犹豫模糊聚类算法的基础上进行扩展和优化,使其适用于包含数值属性和分类属性的数据集,同时给出了一种自动确定簇中心的方法,对于聚类簇数不确定的情况下给出有价值的参考,以及结合近邻思想和信息熵理论提高算法对噪声点和复杂结构数据集的适应性。