论文部分内容阅读
随着大数据和多媒体产业的迅速发展,既催生了一批新兴产业,也深刻的改变了人们的生活习惯和精神文化需求。以网络视频为代表的新兴事物在短短几年内发展突飞猛进,由于其丰富的信息表达形式和快捷的信息传递渠道,正吸引着越来越多的用户。然而,网络视频数据拥有丰富的内容、巨大的数量以及多样化的机构,给用户检索带来极大的挑战,用户越来越难在短时间内从海量的视频数据中挑选出自己真正喜欢的视频。本文根据用户对视频的喜好度作为特征值,对用户特征进行分析,建立视频用户年龄分类模型,此模型适合运营商将信息准确地推荐给视频用户,同时也可提高网络视频的竞争力。本文主要研究基于TF-IDF改进算法和喜好度的视频用户分类,主要工作如下:1.研究了Spark计算平台的相关的理论和技术,在Spark运算框架上,使用朴素贝叶斯,TF-IDF和改进了的TFC-IDFC分类算法,以用户观看视频及喜好度信息作为特征项,分别训练不考虑特征项权重的朴素贝叶斯、TF-IDF权重和改进的TFC-IDFC权重的情况下,用户在的年龄区间的分类模型,用正确率和FI值对比此模型的分类效果。2.将年龄离散化和标签化,并且对获取的数据进行处理,将数据设置成空间向量模型。3.目前在研究用户对视频的喜好程度时,一般都是基于视频的点击次数,然而,点击的次数其实不能完全体现用户对视频的喜好程度,无意识无目的的无效点击、炒作点击等都无法说明用户对该视频的喜好。本文是基于用户观看视频的时长和视频的实际时长信息来计算用户喜好程度,是一种相对精确地计算用户喜好度的计算方法。4.传统的TF-IDF算法并没有考虑到特征项在类内和类间的偏斜分布特点,提出了改进的TFC-IDFC算法,通过正确率和F1值评价指标对以上三种分类算法进行了对比,证明了加权的分类算法比不加权的算法分类效果要好,改进的TF-IDF算法比传统的TF-IDF算法分类效果更优。