论文部分内容阅读
随着Internet全面迅速的发展,网络已经渗透至各个领域,成为人们生活工作不可或缺的一部分。一方面,网络提供了海量的图片、文字、音频及视频等丰富的信息,使人们能够有机会从中找到需要的信息;另一方面,面对如此多的信息,人们很难准确地获得需要的信息及信息之间潜在的知识。因此,信息个性化服务应运而生,实现了从“人找服务”到“服务找人”的转变。Web日志数据挖掘旨在通过对日志进行有效的数据挖掘,发掘隐藏在日志数据背后的规律和模式,通过对Web日志数据和用户对网站的访问频度、行为及内容等进行分析可以从中提取出有用的信息,并且从中分析得出用户的兴趣所在,从而可以根据用户的喜好为用户提供个性化的服务。为了能够有效地提供个性化推荐服务,论文针对系统关键环节展开了研究,论文主要贡献体现在以下几个方面:①由于各种搜索引擎的应用,网络爬虫在网站中活动频繁,同时在Web日志中留下了很多与用户行为无关的访问记录;另外,本论文中主要利用Web日志分析匿名用户的行为兴趣,网站管理员与商家管理员的行为日志记录属于无关记录。本论文在现有的数据清洗方法上,通过增加能够清除网站和商家管理员的方法和正确地识别与清除网站爬虫留下记录的方法,有效地解决了上述问题,提高了数据预处理的效率,也相应地提高了用户个性化推荐的准确度。进而,在不要求用户登陆或注册情况下,对清洗后的数据,根据记录中的信息和基于扩展日志的Cookie字段,给出了一种能够简单有效地进行用户识别和会话识别方法。②为了分析匿名用户对网站的兴趣所在,论文提出了一种基于Web日志并结合页面特征内容及用户浏览时间的用户兴趣度计算方法,建立了面向多维对象的兴趣度模型,其中二维用户兴趣度可以分别表征用户对主题类型和商家的兴趣度,三维用户兴趣度模型表征了用户在某主题类型上对某商家的关联兴趣度,模型能够很好地应用于网站的信息个性化推荐中。③在网站“重庆便民服务平台”中实现了对用户的基于环境的多方式个性化信息推荐服务。系统根据历史兴趣和用户实时点击相结合的方法并结合用户所访问网站的位置和状态有效地推荐出了用户感兴趣的服务类型和商家,以及商家发布的动态广告信息。本文尝试着从Web日志数据中挖掘出匿名用户对网站内容的兴趣度,进行个性化的信息推荐,并充分考虑了数据预处理中的效率问题。课题研究过程中,通过实验证明了推荐系统的有效性。