论文部分内容阅读
传统Web网站以系统为中心,为容纳大量信息,页面间存在复杂层次关系。预先设计好浏览路径严格按设定层次返回。为获取特定信息,从同页面出发所有用户都要重复经过很多毫无关系中间链接页,为获取少量信息要付出较大代价。如在确保网页内容前提下,实现物理结构调整和再组织,就可避免混乱。
一、站点个性化与路径优化
站点个性化是为站点用户提供个性化访问体验。一般站点管理者进行路径优化直接目是提高用户点击行为效用度,最终目的是提高用户满意度与忠诚度。站点路径优化是优化站点结构,消除实际安排与用户期望差异。站点设计可考虑调整网站结构、在频繁访问路径处添加目标页面链接,或将常见浏览路径加入缓存。
网站频繁浏览路径体现特定用户特定时期活动规律,是站点路径优化依据。首先是个体用户在其浏览历史区域中多次重复出现路径,其次即用户群体在一定时期浏览历史区域出现重复行为即浏览模式。
个体用户一条浏览路径对应于一段信息探求过程。据个体用户重复浏览路径,可形成用户兴趣视图,并据视图完成个性化推薦,为用户提供定制访问体验。而用户群较长时期内稳定行为模式则为网站结构改进和路径优化提供参考依据。
二、基于Web挖掘的路径优化模型
1.访问序列挖掘实现过程理论分析
为跟踪用户以往浏览网页,挖掘访问数据,Web挖掘技术以Web日志为数据源。每当用户点击链接发出浏览请求时,用户IP地址、浏览日期和时间、页面URL及引用页面等会被Web日志记录,用户点击页面按时间顺序以页面URL序列形式隐藏在日志中。访问序列挖掘通过对日志分析和预处理,将用户以往浏览序列提取及表示出来,并采用各种挖掘方法和算法从不同角度获各类用户可能网页浏览顺序,探索总结用户浏览网页规则和模式。在获用户浏览规律后,通过模式分析识别用户需求链接,确定用户浏览行为目标就可提高用户浏览总体性能,帮助改进网页设计和网站链接结构,同时确定可用于缓存浏览网页信息。
从服务器角度分析,挖掘发现的是提供服务网站信息,挖掘结果可帮助改善网站设计。从用户点击序列分析,可发现用户信息,帮助实现网页预存取和缓存。
2.站点路径优化模型构建
以Web日志为数据源进行站点路径优化挖掘模型,采用数据挖掘及Web日志挖掘相关技术和算法获用户浏览规则与模式,为网络结构优化、站点重构提供参考及个性化服务推荐设计提供了依据。据此站点路径优化模型可分数据预处理和站点路径优化实现两部分,站点路径优化部分可从两方面考虑:一是通过对日志挖掘,发现用户期望位置。如期望位置访问频率高于实际位置访问频率,可考虑在期望和实际位置间建导航链接,实现站点优化。二是通过对日志挖掘,发现用户访问页面相关性,对密切联系页面间增加链接,方便使用。
三、站点路径优化的实现
1.Web日志数据收集
Web服务系统是多层次逻辑结构,包括客户端、代理服务器端和服务器端。Web服务器日志包括三部分:访问日志、引用日志和代理日志,包括用户访问Web站点时,所访问页面、时间、用户ID等信息。
2.站点数据预处理
Web站点及访问数据预处理部分主要包括站点结构数据预处理、内容数据预处理和日志数据预处理。结构数据预处理任务是描述站点拓扑结构图、站点页面文件链接有向图,并明确站点各页面文件链接请求方法。站点内容数据预处理包括将文本、图片、脚本和其他多媒体文件转变为用户对站点浏览模式记录信息开发与利用有用格式。
用户访问序列挖掘日志数据源预处理包括数据过滤、格式转换、用户识别、会话识别、路径补全和事务识别,是保证后继挖掘质量关键。
3.基于Web日志挖掘的路径优化实现
在数据预处理后,对所形成用户会话文件,利用数据挖掘一些有效算法(如关联规则、聚类、分类、序列模式等)来发现隐藏模式规则。由于传统手工决策规则系统方法、基于内容过滤代理系统方法、协作过滤系统方法种种不足,且就分析和建立模型技术而言站点路径挖掘和传统数据挖掘差别不大,所以路径优化模式除可运用Web数据挖掘很多方法和算法思想,也可采用一般统计方法和在线分析处理方法,如聚类分析方法、关联规则分析方法和序列模式分析方法等。
站点路径优化可分两类:用户群访问模式挖掘路径优化和个性化挖掘路径优化。一般访问模式挖掘路径优化通过分析在特定时间点特定用户群访问记录来了解用户浏览模式和倾向,以改进站点组织结构;而个性化挖掘路径优化则倾向于分析个别用户偏好,根据用户访问模式,为其提供定制服务。
①个性化浏览路径优化。Web站点链接结构是Web设计者根据一定策略建立起来的,可能与用户期望链接结构间存在一定差距。通过计算,可找到用户返回点,这个位置可能是期望位置也可能是目标页面,但可通过确定时间阈值来解决问题。当用户在返回点停留的时间较长,超过指定阈值,则认为该页面是目标页面,否则可认为是期望位置。通常用户浏览Web站点时,第一期望位置找不到目标页面就会在第二期望位置找,最受关心的是第一期望位置,而且是那些被第一期望且发生频率高于系统设计者指定值所有页面。寻找第一期望位置便成关注焦点。
②用户群访问模式路径优化。采用挖掘频繁访问最大序列方法可挖掘出更有普遍意义模式,算法包括有Apriori算法,最大向前序列法,参考长度法和树形拓扑结构法等。先将日志中用户浏览历史记录转换成浏览子序列集:最大向前序列法根据用户折返特性形成若干浏览子序列;参考长度法据用户在网页停留时间形成若干个浏览子序列;树形拓扑结构法则把整个日志当作浏览子序列。然后利用关联规则法对浏览子序列进行挖掘找出频繁访问路径。频繁浏览路径就是指按一定顺序组成网页序列集,用户依照此序列访问网站频度很高。
四、结语
站点路径优化通过Web挖掘技术收集和统计用户访问历史数据,挖掘用户频繁访问页面序列,对个体用户获取其兴趣模型,以便在其以后访问中自动向用户推荐内容,指导浏览行为,提高浏览信息效率。对群体用户获取其访问路径规则与模式,增加超链改进站点结构,假如页面缓存提高速度,提高站点访问满意度。
一、站点个性化与路径优化
站点个性化是为站点用户提供个性化访问体验。一般站点管理者进行路径优化直接目是提高用户点击行为效用度,最终目的是提高用户满意度与忠诚度。站点路径优化是优化站点结构,消除实际安排与用户期望差异。站点设计可考虑调整网站结构、在频繁访问路径处添加目标页面链接,或将常见浏览路径加入缓存。
网站频繁浏览路径体现特定用户特定时期活动规律,是站点路径优化依据。首先是个体用户在其浏览历史区域中多次重复出现路径,其次即用户群体在一定时期浏览历史区域出现重复行为即浏览模式。
个体用户一条浏览路径对应于一段信息探求过程。据个体用户重复浏览路径,可形成用户兴趣视图,并据视图完成个性化推薦,为用户提供定制访问体验。而用户群较长时期内稳定行为模式则为网站结构改进和路径优化提供参考依据。
二、基于Web挖掘的路径优化模型
1.访问序列挖掘实现过程理论分析
为跟踪用户以往浏览网页,挖掘访问数据,Web挖掘技术以Web日志为数据源。每当用户点击链接发出浏览请求时,用户IP地址、浏览日期和时间、页面URL及引用页面等会被Web日志记录,用户点击页面按时间顺序以页面URL序列形式隐藏在日志中。访问序列挖掘通过对日志分析和预处理,将用户以往浏览序列提取及表示出来,并采用各种挖掘方法和算法从不同角度获各类用户可能网页浏览顺序,探索总结用户浏览网页规则和模式。在获用户浏览规律后,通过模式分析识别用户需求链接,确定用户浏览行为目标就可提高用户浏览总体性能,帮助改进网页设计和网站链接结构,同时确定可用于缓存浏览网页信息。
从服务器角度分析,挖掘发现的是提供服务网站信息,挖掘结果可帮助改善网站设计。从用户点击序列分析,可发现用户信息,帮助实现网页预存取和缓存。
2.站点路径优化模型构建
以Web日志为数据源进行站点路径优化挖掘模型,采用数据挖掘及Web日志挖掘相关技术和算法获用户浏览规则与模式,为网络结构优化、站点重构提供参考及个性化服务推荐设计提供了依据。据此站点路径优化模型可分数据预处理和站点路径优化实现两部分,站点路径优化部分可从两方面考虑:一是通过对日志挖掘,发现用户期望位置。如期望位置访问频率高于实际位置访问频率,可考虑在期望和实际位置间建导航链接,实现站点优化。二是通过对日志挖掘,发现用户访问页面相关性,对密切联系页面间增加链接,方便使用。
三、站点路径优化的实现
1.Web日志数据收集
Web服务系统是多层次逻辑结构,包括客户端、代理服务器端和服务器端。Web服务器日志包括三部分:访问日志、引用日志和代理日志,包括用户访问Web站点时,所访问页面、时间、用户ID等信息。
2.站点数据预处理
Web站点及访问数据预处理部分主要包括站点结构数据预处理、内容数据预处理和日志数据预处理。结构数据预处理任务是描述站点拓扑结构图、站点页面文件链接有向图,并明确站点各页面文件链接请求方法。站点内容数据预处理包括将文本、图片、脚本和其他多媒体文件转变为用户对站点浏览模式记录信息开发与利用有用格式。
用户访问序列挖掘日志数据源预处理包括数据过滤、格式转换、用户识别、会话识别、路径补全和事务识别,是保证后继挖掘质量关键。
3.基于Web日志挖掘的路径优化实现
在数据预处理后,对所形成用户会话文件,利用数据挖掘一些有效算法(如关联规则、聚类、分类、序列模式等)来发现隐藏模式规则。由于传统手工决策规则系统方法、基于内容过滤代理系统方法、协作过滤系统方法种种不足,且就分析和建立模型技术而言站点路径挖掘和传统数据挖掘差别不大,所以路径优化模式除可运用Web数据挖掘很多方法和算法思想,也可采用一般统计方法和在线分析处理方法,如聚类分析方法、关联规则分析方法和序列模式分析方法等。
站点路径优化可分两类:用户群访问模式挖掘路径优化和个性化挖掘路径优化。一般访问模式挖掘路径优化通过分析在特定时间点特定用户群访问记录来了解用户浏览模式和倾向,以改进站点组织结构;而个性化挖掘路径优化则倾向于分析个别用户偏好,根据用户访问模式,为其提供定制服务。
①个性化浏览路径优化。Web站点链接结构是Web设计者根据一定策略建立起来的,可能与用户期望链接结构间存在一定差距。通过计算,可找到用户返回点,这个位置可能是期望位置也可能是目标页面,但可通过确定时间阈值来解决问题。当用户在返回点停留的时间较长,超过指定阈值,则认为该页面是目标页面,否则可认为是期望位置。通常用户浏览Web站点时,第一期望位置找不到目标页面就会在第二期望位置找,最受关心的是第一期望位置,而且是那些被第一期望且发生频率高于系统设计者指定值所有页面。寻找第一期望位置便成关注焦点。
②用户群访问模式路径优化。采用挖掘频繁访问最大序列方法可挖掘出更有普遍意义模式,算法包括有Apriori算法,最大向前序列法,参考长度法和树形拓扑结构法等。先将日志中用户浏览历史记录转换成浏览子序列集:最大向前序列法根据用户折返特性形成若干浏览子序列;参考长度法据用户在网页停留时间形成若干个浏览子序列;树形拓扑结构法则把整个日志当作浏览子序列。然后利用关联规则法对浏览子序列进行挖掘找出频繁访问路径。频繁浏览路径就是指按一定顺序组成网页序列集,用户依照此序列访问网站频度很高。
四、结语
站点路径优化通过Web挖掘技术收集和统计用户访问历史数据,挖掘用户频繁访问页面序列,对个体用户获取其兴趣模型,以便在其以后访问中自动向用户推荐内容,指导浏览行为,提高浏览信息效率。对群体用户获取其访问路径规则与模式,增加超链改进站点结构,假如页面缓存提高速度,提高站点访问满意度。