无监督聚类算法研究及其在序列数据分析中的应用

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:ydaf4rx3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于无标签数据易于获得,对其分析的需求越来越高。无监督聚类算法一直是面向无标签数据的机器学习算法研究和实际应用的热点。多核学习在聚类算法中有重要影响力,针对聚类分类的超限学习机也在近几年逐渐兴起。本文基于多核学习与超限学习机,研究了针对不同数据特点的聚类算法。考虑到部分数据较少且数据特征表达不足的情况,提出了基于超限学习机的多样性引导的多核k-means算法;考虑到数据存在噪声和冗余信息的情况,本文提出了低秩和多样性正则化项约束的多核学习算法。针对上述两个算法目标函数的不同,本文提出了不同的迭代优化算法,并且验证其有较好的收敛性和较大的可选参数范围。通过在公共数据集上的测试,本文算法的性能都高于经典聚类算法和当前最先进的聚类算法。常见的无标签数据形式是一段时间的连续统计值,称为序列数据。鉴于序列数据随着类型的不同,分析方法大相径庭。本文结合实际序列数据,将聚类算法与其特点结合,实现了聚类算法研究在序列数据上的应用。针对电路序列数据,提取序列趋势,确定数据间的相似度,结合基于超限学习机的多样性引导的多核k-means算法,对其进行聚类,再将序列数据进行降维可视化和每个样本的可视化,并与序列片段法和单核谱聚类法进行对比。通过可视化结果可以看出,相似的数据分布密集,电路序列数据聚类对数据分析有较大的帮助。针对声音序列数据,提取梅尔倒谱系数、时频图作为特征,构建核矩阵,在不同信噪比情况下,结合低秩和多样性正则化项约束的多核学习算法进行分析。从聚类性能上可以看出,我们的算法相比于其他算法更好地将声音序列数据聚成对应的类别。
其他文献
随着信息科学技术的发展,越来越多的数字化设备被应用于工作和生活中来记录和传播信息,进而使得照片和视频资源呈现几何级数的增长。如何快速从海量的视觉媒体信息中筛选出有
PLM(Product Lifecycle Management)系统,即产品生命周期管理系统。该系统能够管理从产品设计、产品生产、销售到停产整个生命周期的所有数据信息。它的最大特点就是能够实现
近年来随着人们对智能计算、物联网与人机交互等技术研究的日益深入,情景感知技术得到了快速发展。情景感知计算的目标在于实现“无时不在而又无处不在”地主动为用户提供恰
随着海量数据的出现,数据挖掘成为目前最有应用价值的领域之一,数据挖掘技术从这些大量的无结构的数据中提取有效的隐含价值的信息,从而提高决策效率。不平衡数据分类是数据
随着信息革命的不断推进,网络成为人们生活中不可或缺的一部分。敏感信息在网络上的安全传输问题关系着个人、企业乃至国家的发展。安全协议以密码算法为基础在互联网络中为
古籍汉字数量多,结构复杂,现有的文字图像检索方法在应用于古籍汉字图像时难以取得理想的结果。为了更好地辅助从事古籍汉字研究的专家学者以更高的效率从事研究工作,本文根
P vs.NP问题一直是理论计算机科学领域中最为复杂的一个问题,已经被列为世界七大数学难题之首。P vs.NP问题已经吸引了世界上许多学者对其研究,但遗憾的是,仍然未获得被广泛
党的十八大以来,习近平总书记高度重视扶贫工作。党的第十八届五中全会从实现全面小康的视角出发,指出我国2020年在现行标准下实现全部贫困人口脱贫。农民工问题是关乎我国的
近年来,随着移动通信技术的不断发展,移动互联网技术已成为通信和互联网领域最值得关注的技术之一,我国的移动互联网通信不断发展,通信技术也在飞速发展。原有的GSM、GPRS技
光纤法布里-珀罗传感器是一种体积小、结构简单、成本低、测量精度高、检测范围大的光纤传感器,易于产品化,已经被广泛用于民用工程、航空航天等领域的应变、温度、压力等物