论文部分内容阅读
近些年国内的视频网站迅速兴起,在互联网上观看视频已经成为人们的一种生活习惯。从2004年中国互联网视频业务兴起初始,到今年已经有十余年的时间。在这期间,随着国内外资本对于这块市场的不断投入,互联网视频行业飞速发展并逐渐走向成熟,成为民众不可缺少的休闲娱乐方式。网络视频正在成为中国互联网服务的一个重要组成部分,2014年中国网络视频用户规模达4.39亿,手机视频用户规模为2.94亿。而在2014年互联网广告收入已超过电视,成为五大媒体中的第一广告媒体。目前国内的视频网站格局已经基本形成,各家网站对于版权的投入和争夺已经到白热化状态。本文首先对目前国内排名靠前的几家视频网站的视频播放量信息进行抓取,然后提出一种针对国内视频网站流行度数据特征的异常处理方法,然后对数据集进行适当的信息补全和归一化。之后将提炼的数据用于分析,以揭示同一视频内容的流行度趋势在各家网站中所展示出来的异同,以及视频早期流行度与其峰值流行度的关联关系。最后根据整理和分析所得到的的视频流行度数据对视频流行度进行建模,提出一种通过视频早期流行度特征,结合与其早期特征相似视频,来预测该视频所能达到的峰值播放量量级的预测模型。经测试,验证了预测方法的有效性,并且该预测的近期历史数据越齐全,预测结果越准确,误差率越低,而且预测模型响应速度快,满足了对视频流行度预测的需求。并将视频流行度预测结果有效地运用到视频垂直搜索引擎的各个模块之中。