论文部分内容阅读
随着信息资源和用户数量的增加,在网络上运行的流媒体系统的复杂程度及其整体规模也逐渐增加,使得优化流媒体系统结构、提供优质服务成为运营商亟待解决的问题。由此,各种针对流媒体服务器系统服务及性能的研究被展开,为满足流媒体运营商的这一需求,我们在流媒体应用系统中融合入Web数据挖掘技术,通过在Web使用信息中使用数据挖掘的技术和方法,可以获得流媒体服务运营商所感兴趣的信息和知识。Web日志挖掘是Web挖掘中一项重要内容,其采用的技术主要有关联规则生成、序列模式发现、分类、聚类等。通过对Web日志的分析,可以发现用户的访问兴趣、习惯及对站点设计有用的领域知识,从而实施个性化服务、市场决策及站点结构的自适应调整等应用。Web日志挖掘的数据主要包括:Web服务器端的用户访问日志、代理服务器端的访问日志、客户端(浏览器)的日志、用户的注册信息、用户会话以及电子商务系统中的交易信息等,目前的研究主要集中在对日志文件的挖掘。本文基于以上需求,利用数据挖掘技术对WMS(Windows Media Service)流媒体服务日志开展研究。通过深入探讨数据挖掘技术中的关联规则算法,运用经典的Apriori算法对WMS流媒体服务日志进行了关联规则的挖掘。进而通过分析用户访问流媒体信息的内容、链接关系,形成相应的模式。在对用户行为及其属性的不断学习中,获取每个用户的个性爱好及其点播行为模式。为进一步实现用户个性化节目推荐提供了理论依据,从而实现自动定制不同的用户访问界面,并最终根据得到的知识实时地向用户提供推荐服务。本文还通过将WMS日志关联规则数据挖掘的结果运用到视频网站个性化节目推荐系统中,对个性化节目推荐系统做了初步的设计及分析,目的是改进视频网站的管理与维护工作,便于用户对节目信息查找和浏览,最终的目的的是使网站的浏览者成为消费者,同时提高视频节目的交叉销售能力和视频用户对流媒体网站的忠诚度。