论文部分内容阅读
信息技术和互联网技术的快速发展,在带给人们丰富感官体验的同时也带来了信息过载的问题。如何高效的检索、处理这些数据以及进行个性化推荐成为我们亟需解决的问题。由此,本文提出一种结合视频流处理的智能电视节目推荐系统。该系统能够实现用户行为数据的采集以及个性化视频节目的推荐。针对推荐过程中涉及的海量计算任务,通过将推荐系统部署于分布式计算框架Spark之上以提升系统整体的运行效率。本文的研究重点主要集中在以下三个方面:1、构建了基于台标识别算法的用户行为采集模块。针对传统算法在识别准确率和识别速度方面存在的不足,本文在深入研究卷积神经网络算法的基础上,提出一种递进卷积神经网络台标识别算法。该算法将两级卷积神经网络模型相级联,采用不同的训练策略对两级模型进行训练,构建出具有不同针对性的网络模型。同时,通过增加每级网络中特征图的数量和拒绝部分问题样本的输出进一步提升识别准确率。实验结果表明,基于递进卷积神经网络算法的用户行为采集模块对台标的识别准确率达99.3%,平均识别时间不超过0.15秒。2、构建了基于混合模型的推荐算法。通过对推荐算法的研究,针对单一推荐模型易受数据稀疏性影响的问题,本文提出一种结合基于物品和基于ALS的混合推荐模型。混合模型中的两种推荐算法具有不同的针对性。基于物品的推荐算法根据数据间局部相关性作为推荐依据,而基于ALS的推荐算法通过获取数据的全局性作为推荐依据。通过对用户行为数据的筛选,对具有不同行为特点的用户运用不同的推荐策略,增强推荐模型的准确性和实用性。3、构建了基于Spark并行计算框架的智能电视节目推荐系统。针对推荐过程中涉及的海量数据计算任务,本文将Spark并行计算框架运用于视频推荐系统的构建中,实现了用户行为采集模块和推荐模块中相关算法的并行化。同时针对视频流处理对于实时性的要求,将Spark流处理框架引入系统的构建中。实验结果表明,基于Spark的并行化算法的运行效率比串行算法提升了 10倍以上。通过实验结果的分析,证明了递进卷积神经网络模型能够有效的对台标进行识别,使系统能够更加高效地采集到用户收视行为数据。混合推荐模型能够有效避免由于数据稀疏性引起的推荐准确率下降的问题。同时,通过对Spark并行计算框架的运用,有效提升了系统整体的运行效率。