论文部分内容阅读
互联网已经迅速发展成为我们生活、工作和学习中一个不可或缺的重要组成部分。
如何从这个巨大信息海洋中寻找所需的信息资源或定制自己的服务成为人们迫切关心的问题。作为互联网服务的提供方,Web 网站的重要性也日益提高,如何合理设计网站布局以方便用户浏览成为Web 网站优化工作的重点。与此同时,电子商务也在以令人难以置信的速度蓬勃发展着,在这样一个全新的商业环境中,怎样吸引新的客户并通过自身提供的资源和服务进一步留住这些客户,成为众多开展电子商务企业所面临的一个难题。因此,采用Web 挖掘自动地提取出有价值的知识,构建自适应网站,提高WWW的效率,将具有十分重要的现实意义和广阔的应用前景。
本文研究将集中在基于图结构的用户访问模式挖掘及其在自适应Web 网站的应用上,将数据挖掘技术、数据库技术与Web 技术相结合,在分析网站逻辑结构的基础上,通过对用户访问模式的数据挖掘,对己存在的Web 网站的结构及网站内的页面进行调整和改善,使其具有自适应能力和优化能力,使各类信息和服务以更有效的方式提供给用户。
首先,定义了自适应网站,区分了可适应网站和自适应网站。其次,讨论了Web数据挖掘技术,Web 数据挖掘的分类,分析进行Web 日志挖掘的数据基础及在进行挖掘前需要的数据准备工作,包括数据清洗、用户识别、会话识别、路径完善和事务识别等数据预处理过程。再次,提出一种基于Web 拓扑结构(图结构)挖掘用户访问模式的方法,区别于常用关联规则算法,在候选集的连接和剪除过程中减少了候选集的数量,提高了发现模式的精确性和效率。利用Web 日志挖掘获得的规则和模式对己存在的Web网站的结构及网站内的页面进行调整和改善。包括链接位置的变动,增加页面的链接等,运用页面关联的结果可方便地向浏览模式相似的用户组推荐其感兴趣的主题相似的页面,从而实现网站组织结构的优化。对系统进行了实际运行测试,得到了可行性验证。
论文的结尾,对所做的工作进行了归纳与总结,探讨了将来进一步的研究方向。