一种基于样本点距离突变的聚类方法

来源 :南京大学学报(自然科学) | 被引量 : 0次 | 上传用户:haozhizhegogo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对聚类算法常见的难以确定参数、难以适应各种形状的数据集、在提高算法普适性时时间复杂度增大的问题,提出一种新的聚类算法:结合数据集全局和局部的特征寻找样本点距离的突变位置,通过计算样本点的簇内最小距离实现凸球型数据集的聚类;在此基础上提出子簇连结性强弱的概念,依据两个容易确定的参数进行子簇合并来适应各种形状的数据集.将该算法与DBSCAN (Density-Based Spatial Clustering of Applications with Noise)等多种聚类算法在四种经典数据集上比较,结果表明,该算法适用于类簇形状复杂的数据集,在同等聚类能力的算法中计算速度更快,且具有参数少、易确定的优点,在综合性能上表现优秀.
其他文献
采用Pacbio三代和Illumina二代测序技术对不同温度(15℃,20℃,25℃,30℃,33℃)条件下养殖的30月龄池蝶蚌性腺组织进行转录组分析.通过差异分析获得各个温度下雌雄对比组的差异基因,数量分别为6311,3013,6673,6798和5685个.其中在20℃和33℃下差异基因数量最少.差异表达基KEGG富集显示,25℃条件下出现卵母细胞的有丝分裂,细胞周期和notch信号通路等雌性相关活动.对五个温度处理组之间的差异表达基因进行组间比较,发现含有802个共同表达差异的基因,其中鉴定到wnt
随着声学技术的广泛应用和不断发展,多种类型的工作标准传声器(简称:传声器)大量出现.受制于传感器结构、原理和尺寸的不同,静电激励器法和耦合腔比较法并不能完全满足校准需求,因此自由场比较法在校准中得到使用.为满足低频校准的需求,需要使用截止频率较低的大尺寸自由场空间.虽然大尺寸自由场空间的用途广泛,但是带来了声源、参考传声器和被校传声器的快速定位问题.实践证明位置定位准确性是影响校准重复性和不确定度的重要因素.提出一种采用激光定位设备在大尺寸自由场空间快速进行传声器自由场比较法校准的解决方案.该解决方案具有
区域水资源承载力状态评价对于查明区域水资源现状从而保障区域社会、经济发展具有十分重要的意义.为科学、合理地评价区域水资源承载力状况,提出水资源承载力综合评价的组合权重-MNCM (Multidimensional Normal Cloud Model)法.首先,改进AGA-AHP(Accelerating Genetic Algorithm based Analytic Hierarchy Process)法以优化专家评价矩阵并确定主观权重,运用熵权法确定客观权重,应用组合权重公式得到评价指标的组合权重;
近年来,基于协方差矩阵重构的自适应波束形成技术一定程度上避免了期望信号出现“自消”的现象,然而当相干干扰与导向矢量误差同时存在时,现有的重构类波束形成器对干扰的抑制能力较差.针对该问题,提出一种基于干扰不确定集的空域扇区重构自适应波束形成算法,该算法适用于任意阵型.首先使用迭代自适应估计的方法拟合解相干的样本协方差矩阵,再使用传统的空域扇区重构方式,将估计的空间谱在干扰导向矢量不确定集上进行积分,重构干扰加噪声协方差矩阵,最后通过同样的方式重构期望信号协方差矩阵,并将其最大特征值对应的特征向量作为期望信号
近年来,推荐系统的实用价值越来越高,良好的推荐算法可以给用户提供好的用户体验效果,然而随着信息化的不断增长,信息过载问题变得越来越突出,用户懒于对物品评分已经成为习惯.怎样向这些特定用户群体提供好的推荐算法、提高推荐质量已经成为现在的热门问题.为了更好地推动推荐系统的发展,解决这些特定用户群体的评分稀疏问题,提出一种受约束的贝叶斯概率矩阵分解算法.该算法针对特定的评分稀疏用户引入一种潜在的相似度约束矩阵来影响用户的特征向量,并结合最大后验概率(Maximum A Posteriori,MAP)估计和蒙特卡
随着5G/B5G的不断发展,无人机在实时数据采集系统中将有广泛应用.利用无人机先给传感器节点进行无线充电,然后传感器节点利用收集到的能量将感知的信息上传无人机,可有效解决户外物联网节点的供电与数据采集问题.然而,由于无人机本身的电量受限,如何在保证无人机充电辅助物联网系统顺利完成新鲜数据采集任务的前提下最小化无人机的能耗至关重要.为此,在满足信息采集新鲜度的要求下,通过联合优化无人机的飞行时间、加速度、转角和传感器节点信息上传和能量收集调度模式,建立无人机能耗最小化优化问题.由于该问题含有整数变量,大规模
近年来,基于基因表达微阵列数据的生物标记物示性基因的识别在生物信息学领域备受关注.自发性早产(Spontaneous Preterm Birth,SPTB)生物标记物的成功鉴定有利于降低孕妇早产的风险,具有重要的研究价值.提出一种从公开基因表达数据中识别SPTB生物标记物的方法.首先,从公开数据库下载SPTB的基因表达数据,运用支持向量机-递归特征消除(Support Vector Machine-Recursive Feature Elimination,SVM-RFE)进行基因特征选择,并与其他机器学
音频对抗样本可以用于提高音频目标分类系统的可靠性,然而目前音频对抗样本的感知质量较低,生成质量不能令人满意.为提升音频对抗样本的质量,首次采用生成对抗网络(Generative Adversarial Network,GAN)实现音频目标分类的对抗样本生成.提出用于音频目标分类对抗样本生成的通用GAN框架,将待攻击的分类模型引入GAN.在此基础上,提出基于GAN的分段扰动/整体攻击(GAN-based Segmented-perturbation Overall-attack,SOGAN)方法.SOGAN
强混响环境下的话者数量是语音处理应用中的关键信息.以不同话者语音之间的频域幅度平方相干(Magnitude Squared Coherence,MSC)为特征进行话者计数,首先提取语音中的短时频域MSC特征,再采用K-medoids算法对其进行聚类得到话者个数.该方法无需麦克风间距和话者到麦克风之间相对距离的先验信息.不同混响条件、不同信噪比和不同麦克风间距的实验结果表明,频域MSC特征与话者是相干的,与基于广义互相关相位变换(Generalized Cross-Correlation Phase Tra
回旋加速器中的超导磁体由于加工和安装误差会在垂直方向上存在偏移现象.该现象导致加速器内磁场偏离设计,影响束流的有效加速.目前测量超导磁体的垂直偏移主要依靠机械测量和力学传感器监控,这些方法只能在工程上确定超导磁体是否对中,而最后的对中效果仍需要通过磁场测量确认.基于中俄正在联合研制的200 MeV超导质子回旋加速器SC200,详细阐述直接利用其中平面平均径向场相对变化计算超导磁体垂直偏移的过程.对比模拟和实验的数据表明,该方法能够将主加速区中平面的平均径向场控制在±1 Gs以内,即实现了超导磁体在垂直方向