基于TF-IDF改进算法和喜好度的视频用户分类

来源 :天津工业大学 | 被引量 : 2次 | 上传用户:lqylzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据和多媒体产业的迅速发展,既催生了一批新兴产业,也深刻的改变了人们的生活习惯和精神文化需求。以网络视频为代表的新兴事物在短短几年内发展突飞猛进,由于其丰富的信息表达形式和快捷的信息传递渠道,正吸引着越来越多的用户。然而,网络视频数据拥有丰富的内容、巨大的数量以及多样化的机构,给用户检索带来极大的挑战,用户越来越难在短时间内从海量的视频数据中挑选出自己真正喜欢的视频。本文根据用户对视频的喜好度作为特征值,对用户特征进行分析,建立视频用户年龄分类模型,此模型适合运营商将信息准确地推荐给视频用户,同时也可提高网络视频的竞争力。本文主要研究基于TF-IDF改进算法和喜好度的视频用户分类,主要工作如下:1.研究了Spark计算平台的相关的理论和技术,在Spark运算框架上,使用朴素贝叶斯,TF-IDF和改进了的TFC-IDFC分类算法,以用户观看视频及喜好度信息作为特征项,分别训练不考虑特征项权重的朴素贝叶斯、TF-IDF权重和改进的TFC-IDFC权重的情况下,用户在的年龄区间的分类模型,用正确率和FI值对比此模型的分类效果。2.将年龄离散化和标签化,并且对获取的数据进行处理,将数据设置成空间向量模型。3.目前在研究用户对视频的喜好程度时,一般都是基于视频的点击次数,然而,点击的次数其实不能完全体现用户对视频的喜好程度,无意识无目的的无效点击、炒作点击等都无法说明用户对该视频的喜好。本文是基于用户观看视频的时长和视频的实际时长信息来计算用户喜好程度,是一种相对精确地计算用户喜好度的计算方法。4.传统的TF-IDF算法并没有考虑到特征项在类内和类间的偏斜分布特点,提出了改进的TFC-IDFC算法,通过正确率和F1值评价指标对以上三种分类算法进行了对比,证明了加权的分类算法比不加权的算法分类效果要好,改进的TF-IDF算法比传统的TF-IDF算法分类效果更优。
其他文献
赖氨酸是家禽日粮中的第二限制性氨基酸,一直是研究的热点。本文从赖氨酸营养、在家禽上的效果和家禽对赖氨酸需要量三个方面简要综述了近年来国内外对赖氨酸的研究。
对二维仿射-Virasoro李代数结构理论进行了计算和研究,确定了该类李代数的中心扩张、导子代数和自同构群,这对该类李代数表示理论的研究具有一定的意义。
上市公司的盈余管理是现代公司理财活动的核心问题之一,它是公司投资融资活动的延续,恰当的盈余管理可以为上市公司获得持续稳定的发展条件和机会。国外学者对盈余管理问题研究
采用琼脂扩散试验检测自然感染猪附红细胞体抗体和兔抗猪附红细胞体抗体,结果表明,猪附红细胞体抗原与自然感染附红细胞体猪血清、营免和二次免疫后收集的兔抗血清的琼脂扩散试
汉帝国境内的粮仓有各种不同的类型,拥有各种不同的具体名称,并可根据如下几个标准进行分类,即形制、储藏内容、地上建筑和地下建筑的区别以及粮仓的功用等。各种类型的粮仓分布
当前,我国正处在城镇化的快速发展阶段,吸纳农业转移人口在城镇落户定居,实现其永久转移,既是统筹城乡发展的重大任务,也是推进城镇化的关键。针对江苏省13个地级市农民工群
被害人作为弱者,绝非仅仅承担一种可能的危险或风险,而是实际蒙受了肉体、精神和财产诸方面的损害和损失。因此,国家对于被害人合法权益的保障,要优先于被告人,并着眼于构建
目的对雅培i-STAT便携式临床血液分析仪(i-STAT)与强生5600生化免疫-体机(VITROS 5600)检测肌钙蛋白结果进行可比性分析. 方法对检测系统进行精密度验证的基础上,依据极差检验比
近几年人们环保的意识的不断提升,VOCs处理工艺研究得到了人们的关注,做好VOCs处理对于环境的保护来说意义重大.针对VOCs处理技术在煤制气项目中应用进行分析,希望对相关工作