【摘 要】
:
声音信号载有丰富的环境信息,且具有非接触性、低采集成本,使得声音场景分析的应用场合非常广泛,比如音频监控、智能家居、自动辅助驾驶、生态环境监测、人机交互等。本文以
论文部分内容阅读
声音信号载有丰富的环境信息,且具有非接触性、低采集成本,使得声音场景分析的应用场合非常广泛,比如音频监控、智能家居、自动辅助驾驶、生态环境监测、人机交互等。本文以复杂音频作为分析对象,探讨基于联合学习框架的声音场景聚类方法。本文主要工作及创新点如下:(1)本文提出一种基于深度表征(Deep Representation,DR)的声音场景聚类方法。首先从音频样本中提取对数梅尔频谱(Log Mel Spectrum,LMS),然后输入卷积自编码网络(Convolutional Autoencoder Network,CAN)。最后,从CAN的全连接层抽取出深度表征作为基于图论的凝聚层次聚类(Hierarchical Agglomerative Clustering,AHC)算法的输入,并实现声音场景聚类。实验比较不同特征之间的聚类性能差异,实验结果表明:采用DCSAE-2017和LITIS-Rouen两个声音场景数据库进行评测,基于深度表征的声音场景聚类方法得到的归一化互信息(Normalized Mutual Information,NMI)分别为61.66%和58.57%,得到的聚类精度(Clustering Accuracy,CA)分别是52.83%和50.25%,均优于基于其他特征的聚类结果。(2)在(1)的方法中,深度表征特征提取与聚类迭代是独立进行的,而不是联合学习的。所提取的特征对聚类迭代可能并不友好,聚类性能仍然有待提高。为了克服上述方法的缺点,本文提出一种基于联合学习框架的声音场景聚类方法。首先,构造一个CAN用于提取深度表征,采用常规聚类算法初始化聚类类别分配。将全连接层和Softmax层构造一个判别性聚类网络(Discriminative Clustering Network,DCN)。然后,设计一个损失函数指导由CAN和DCN组成的联合学习框架的迭代优化,同时最小化特征重构误差和聚类估计误差。所设计的损失函数由重构损失(用于优化CAN参数)和聚类损失(用于优化DCN参数)组成。实验讨论CAN隐藏层参数设置和不同初始化常规聚类算法,比较不同方法的聚类性能。实验结果表明:采用DCSAE-2017和LITIS-Rouen两个数据库进行评测,基于联合学习框架的声音场景聚类方法得到的NMI值分别为67.12%和60.30%,得到的CA值分别为56.54%和55.68%,均优于其他方法得到的结果。综上所述,本文提出基于深度表征和基于联合学习框架的声音场景聚类方法,从多个侧面实验分析本文方法的性能表现,在多种实验条件下进行对比,验证本文方法的有效性。
其他文献
双钢板-混凝土组合剪力墙是一种由外包钢板和内填混凝土组成的组合结构,能够充分发挥钢板和混凝土两种材料的力学特性,具有良好的受力性能。近年来,双钢板-混凝土组合剪力墙
基于EEP(Element Energy Projection,简称EEP)法的自适应有限元分析已经在静力问题中得以实现和应用。在一维杆件的线性强迫振动分析中也已经被成功应用。大量数值算例验证了
高频驱动的容性耦合等离子体放电在半导体工业中有广泛的应用。本文采用朗缪尔探针和激光诱导光致剥离技术重点对27.12MHz射频驱动的容性耦合Ar/O2等离子体的特性进行了研究。论文的第一部分主要使用朗缪尔探针测量了容性耦合Ar等离子体的电参量。测量结果表明,随着27.12MHz射频输入功率或放电气压的增大,电子能量几率分布函数(EEPF)从 bi-Maxwellian 向 Maxwellian 转变
生命为人民燃烧──记杰出法官谭彦张佩霞,刘国华,杨迎秋7年前,一位重病缠身的年轻法官接到医生一纸“宣判”──如果不“长期全休治疗”,“最多只能活5年”。然而,这位法官没有接受
人口老龄化已经成为一个世界性的社会问题,据联合国人口基金会数据显示,2019年全球约有一半的国家/地区65岁以上人口占比在7%及以上,即进入了老龄化社会。随着我国老龄化程度
目的:观察智能化手部支具在手指屈侧皮肤瘢痕挛缩松解植皮术后康复过程中的临床疗效。方法:从2017年6月-2018年12月在佛山市中医院修复重建外科住院的患者中,选取符合纳入标准而无任一项排除标准的手指屈侧皮肤瘢痕挛缩病例共64例,予瘢痕松解游离植皮术,按照手术先后顺序随机分成试验组及对照组。术后3周,拆除压包。试验组采用智能化手部支具牵引结合中药熏洗治疗,对照组采用组合式手部支具牵引结合中药熏洗治
通过分析北京谱仪Ⅲ(BESⅢ)实验上采集的质心能量为(?)=3.773 GeV处,积分亮度为2.93 fb-1的正负电子湮灭产生的φ(3770)数据样本,测量了D介子单卡比博压制的强子衰变过程D+→
C反应蛋白(CRP)是炎症反应的重要指标之一并且在心肌梗塞和动脉粥样硬化等疾病中起着重要的作用。在人体受到细菌感染时,C反应蛋白在白细胞介素6的调控下由肝脏产生,其含量能够迅速上升,最高时能达到基本值的200倍以上。C反应蛋白可通过经典途径激活补体,消耗补体,促进细胞的粘附和吞噬细胞的吞噬作用,实现对C反应蛋白的实时快速测量能够对炎症的预防和治疗有着关键性作用。同样的,C反应蛋白在炎症减轻时能够迅
龋齿作为人类三大重要防治疾病之一是导致牙体缺损的重要原因,严重的影响了人们的口腔健康。口腔修复是治疗牙体缺损的重要手段,牙体预备是修复过程中的必要治疗环节,是指医
二维狄拉克材料具有无质量的载流子且展现出特殊的拓扑特性,其载流子迁移率极高,费米能级附近的能带呈线性带分散,其电子运动规律可用狄拉克方程描述。这些性质将使二维狄拉克材料在高性能电子和自旋电子设备领域有巨大的应用潜力。然而,大多数二维狄拉克材料中的狄拉克核心只能在没有自旋轨道耦合(SOC)的情况下存在。在考虑SOC情况下,狄拉克点处将打开一个间隙并导致二维狄拉克材料出现拓扑绝缘性质。特别是当SOC强