智能环境下基于音频视频信息融合的多说话人跟踪

来源 :兰州理工大学 | 被引量 : 6次 | 上传用户:miszha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类大脑能够对来自各个感官的多源传感信息进行融合加工,帮助人们在复杂的环境下准确跟踪和识别事物。在智能会议环境中,对说话人进行跟踪是人机交互的一个重大研究课题,如何借鉴大脑的融合机理,利用多模态传感信息,有效融合同源说话人的语音信息和视频图像信息,从而达到鲁棒准确的跟踪效果,已成为异类信息融合的一个研究热点。在充分总结和探讨多源信息融合、视频跟踪、声源定位及滤波算法的研究现状和基本理论的基础上,提出了两种基于多源信息融合的人物跟踪算法。一种是基于多视频特征信息融合的多人物跟踪,另一种是基于音频视频信息融合的说话人跟踪。多视频特征信息融合的多人物跟踪系统,它是利用肤色抗旋转和抗遮挡的特性,通过颜色直方图给出了颜色似然模型;并利用轮廓信息能够较好的反映目标形状的特性,通过边缘梯度搜索策略给出了轮廓似然模型;最后在粒子滤波框架下,融合颜色信息和轮廓信息来跟踪多个人物。在音频视频信息融合的说话人跟踪系统中,结合同源说话人语音和视频图像之间的互补性,利用麦克风时延的声源定位和均值漂移肤色跟踪,分别建立音频模型和视频模型,以重要性粒子滤波为工具,建立融合似然模型和融合重要性函数,从中产生粒子并进行滤波跟踪。同时,采用流程化的闭环处理框架,并在跟踪过程中引入反馈环节,提高跟踪的准确性和完整性。仿真实验表明,上述信息融合跟踪算法是可行的。基于多视频特征信息融合的多人物跟踪算法对光照及背景变化等干扰都具有一定的鲁棒性。基于音频视频信息融合的说话人跟踪算法可以准确跟踪到会议中的主要发言人,在人物交错、移动、姿态变化等复杂情况下跟踪效果都较好。
其他文献
系统辨识是控制领域研究的一个重要内容,而非线性系统的辨识更是其中的难点和热点。人工神经网络的提出,为复杂的非线性系统的辨识开辟了新的路径。常见的神经网有很多,其中
我国传统的农业生产主要依靠经验进行管理的发展模式已经不适应农业的可持续发展需要。土地的过度开发、生态环境恶化、农产品质量下降、农业生产投入高等现象都反映出传统农
随着网络与信息技术的发展,远程医疗距人们的生活越来越近,本课题即是基于社区医疗网络数字化的背景,重点研究血氧饱和度生理指标的检测。传统的血氧饱和度检测方法是先通过
全球定位系统(GPS, Global Positioning System)是美国国防部建立的新一代卫星导航定位系统。由于其高精度、全天候、全球覆盖、方便灵活和质优价廉等特点,目前已广泛应用在
直流无刷电机是一种应用广阔、性能稳定的电动机,在很多领域作为重要的驱动部件。对于直流无刷电机的性能改善可以从两个方面进行研究,一方面是对电机的控制方法的研究;另一方面是对电机本体的结构进行研究,在满足电机性能要求的同时,对电机本体结构尺寸进行合理化设计。由于电机的内部情况较为复杂,电机本体的各个结构参数对于电机性能的影响具有高度的非线性,各参数量之间的关系存在相互的影响,因此电机本体的设计需要综合
保证煤炭稳定燃烧是燃煤电站安全运营最根本的要求,炉膛火焰是表征燃烧状态是否稳定的最直接反映。为实现燃烧稳定性状态诊断,本文运用图像处理技术从火焰燃烧的图像中提取燃烧状态的特征参数;针对火焰燃烧时呈现出来的不精确、不一致、不完整等特征,采用粗糙集理论进行分析、处理和诊断,实现燃烧稳定性的判定。煤炭燃烧时,火焰图像受到各种噪声源的影响,火焰具有很强的脉动性,提取的燃烧参数也随之波动。本文将多帧燃烧特征
本课题来源于某市天然气输配工程。论文根据工程需求,构建了天然气远程监控系统。   论文首先对远程监控系统中几种常用的通信方式进行分析比较。考虑该工程实际应用情况,选
本课题是在高等学校博士学科点博导类专项科研基金项目(20091402110004)、山西省研究生优秀创新项目(80010402100171)资助下进行的一项应用基础研究。冰层厚度的连续检测是南
数控机床正在向精密、高速、复合、智能和环保的方向发展并对各种驱动装置的性能提出越来越高的要求。直线驱动装置是机床中的一个重要组成部分,许多直线驱动装置及系统都是采用旋转电动机通过中间转换装置转换为直线运动的。这些中间转换机构会对系统的性能产生种种不良影响,制约着系统性能的进一步提高。随着电机及其驱动控制技术的发展,出现了“直接驱动”直线电机,它取消中间传动环节而直接带动负载运动,消除了由机械传动带
支持向量机是20世纪90年代发展起来的一个机器学习方法,以统计学习理论为根基,广泛地应用于模式识别、回归预测和密度估计等方面。作为该方法重要的组成部分,种类丰富的核函