论文部分内容阅读
互联网快速的发展,使得国内网站快速成长,诞生了大批大型的网站,如新浪,搜狐,网易等。这些网站中,中小型的WEB站点更是不计其数。在这些网站的建构过程中,网站设计者一般只关注对外部的用户访问速度,对于用户体验,则关注较少。为了改善用户体验,网站的相关技术人员需要在维护大量的线上服务器的同时,对站点是否能被用户正常访问实施监控。通过这种监控,了解服务器运行的状况,网站维护人员通过对日志的分析,明确网站运行的问题所在,同时将此问题及时解决,使客户端的网站访问恢复正常。本论文针对WEB站点的日志挖掘来判断用户恶意的攻击及搜索引擎抓取过于频繁等问题,以WEB站点产生的日志为主要研究对象,对日志进行了挖掘过滤分析,在对HTTP协议相关内容了解后,对日志分析结果作了分析研究。并设计日志分析系统的解决方案。包括核心分析系统,结果展示系统,服务器信息维护系统。该系统能及时查询到上一时间段分析日志的服务器所收到的请求类型、状态、状态数量及请求数等,通过上一时间段服务器运行数据,来判断程序逻辑严密性,用户体验好坏,是否有用户恶意请求,搜索引擎抓取是否过于频繁等问题。论文主要工作包括以下几点。(1)挖掘Web用户访问日志,并做分析统计,将分析结果保存于数据库。因为对于访问量大的站点来说,每个小时的日志文件会比较大,如果需要寻找问题,直接打开日志文件是比较耗费内存和相关资源的。因此将日志过滤并统计出结果是维护人员快速的找到问题所在。对大流量站点来说,该系统的重要性和应用性体现在,能及早找到问题,将损失降到最低。(2)设计出查询高效、结构优化的分析结果数据库系统,使得统计数据得以有效管理和快速查询的实现,从而使问题得以快速解决,这对于维护者解决问题很关键。在数据库设计上会考虑服务器端常会出现的问题。Web服务器返回状态码为500和503的情况是客户端经常遇到的,time-taken即所花时间也是一个重要的参数。所用时间表示服务器端响应花费的时间,它是服务器端程序效率的一个重要标志。花费时间越长,服务器端效率越低。在客户端用户感觉到站点速度很慢,用户体验差。