论文部分内容阅读
虚拟现实(Virtual Reality,VR)技术已经成功应用到了教育、旅游、游戏等诸多领域,在视频直播领域也有研究者希望结合VR技术,观看全景立体视频,带来全新的直播观看体验。但是,在实际应用中总会面临诸如全景视频实时拼接、高分辨率视频压缩编码等问题,所以实时的全景立体视频直播系统在构建过程中依然困难。本文设计并实现了全景立体视频直播系统,以八目全景环形镜头为基础,拼接360°双目视频,结合VR头盔,直播观看全景立体视频,给观看者带来全新的视觉体验。同时,针对VR中使用手柄交互不方便的问题,进一步研究了基于视觉的手势识别技术,结合Leap Motion手势体感采集相机,实现了在全景视频直播系统中,识别预定义的手势,完成直播系统中视频画面的交互。本文的工作主要包括:(1)结合卷积神经网络,提出了多模态融合时间分割网络模型(MultiModality Fusion Temporal Segment Networks,MMFTSN),进行手势识别。该模型将RGB、Depth、光流三种模态的视频数据等间隔分割,对分割后的子视频序列随机抽帧,再使用卷积神经网络对抽取的帧进行分类,最后采用权重融合的策略,融合三种模态的识别结果,从而完成动态手势识别任务。使用该网络模型,在手势数据库Chalearn LAP Iso GD上得到60.2%的识别率,优于相关算法表现,表明本文提出模型的有效性。(2)设计并实现了全景立体视频直播系统。使用多相机实时采集并拼接了双目全景视频,采用H.265编码算法,对视频进行更加高效的压缩编码,将视频流传输推送到云端转发,接收端使用VR头盔,结合Unity开发工具,实时接收并观看全景立体视频。(3)基于Leap Motion深度相机,在直播系统接收端,设计并完成虚拟手势交互实验。通过Leap Motion手势传感器,获取手势关键点的位置信息,进而定义手势关键点的距离和速度特征,通过这些特征识别预定义的手势,结合VR头盔和Unity,完成直播系统中视频画面的旋转、缩放、移动操作。本文将手势识别技术应用在全景立体视频直播系统中,实验结果表明,系统可以满足直播需求,且能够识别预定义的手势,完成直播系统中的手势交互,实现更加自然的人机交互方式,为未来VR技术中取代手柄交互提供了解决思路。