Web使用挖掘方法的研究和实现

被引量 : 0次 | 上传用户:virusniper
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web挖掘是将数据挖掘和WWW这两个领域中的多种技术和方法结合起来的热门研究课题。一般来说,它的研究领域包括Web内容挖掘、Web结构挖掘和Web使用挖掘。其中,Web使用挖掘的研究目的在于发现用户浏览网站的行为规律,改善站点的结构和页面间超链接结构,提高站点服务质量以及在电子商务中的客户关系管理方面的决策支持。本文在介绍Web使用挖掘发展概况的基础上,详细论述了Web使用挖掘的整个过程和相关技术。本文所做的主要工作和新见解如下: ● 详细论述了Web挖掘的定义、体系结构和分类,并且阐述了各个类别的主要研究内容; ● 阐述Web使用挖掘的定义、过程,以及各个阶段的研究内容和相关技术; ● 在Web使用挖掘的数据预处理阶段,提出了一种新的会话构造方法——基于时间和引用的启发式方法。该方法不仅利用了用户会话的时间特性,而且考虑了用户的浏览特性。所以,这在一定程度上方便了用户频繁访问模式的挖掘; ● 在第四章中,本文在修改FP-Tree算法的基础上,提出一种发现用户频繁访问模式的算法(FAP-Mining)。该算法可以用于发现不同类型的网站用户的访问模式,并且可以根据专家设定的支持度阈值发现用户的频繁访问模式; ● 设计开发了Web使用挖掘实验系统(Web Usage Mining Experimental System)。此系统包含四个主要功能模块:数据清洗模块、会话构造模块、流量分析模块和访问模式挖掘模块。会话构造模块中不仅实现了基于时间和引用的会话构造方法,并且将它与其它流行的会话构造方法进行了比较;流量分析模块从总体上分析网站的浏览情况;访问模式挖掘模块实现了本文第四章提出的FAP-Mining算法。
其他文献
<正> 化学符号是描述化学物质结构、运动及其性质的语言标记系统,是研究化学运动的特征及其相互转化并进行高度抽象的重要工具和手段。自近代化学诞生以来,化学家们创造的化
近几年来,伴随着高等教育的不断扩招和升级,在实际运行过程中暴露出许多深层次的问题,出现一些办学误区。本文拟从对高校办学误区存在的现象及认识原因进行分析,对我国高校今
随着我国蛋白饲料原料进口量不断提高,蛋白饲料原料创新成为打破现有局面、保障畜牧业健康发展的重要挑战。构树是我国的乡土树种,具有营养丰富、蛋白质生物学价值高、饲喂效
中国科学院内蒙古草原生态系统定位研究站最近几年在草原生态系统多功能、草原生态系统碳循环与温室气体、气候变化对植物群落结构影响长期观测、草原生态系统退化与恢复过程
热力学关系式多而杂,学生记忆十分困难。提出了热力学基本方程、对应系数关系式和麦克斯韦关系式的一种简捷记忆方法,不仅使学生能容易记住各种关系式,而且提高了记忆的准确
现代商业银行已日渐演变为“风险机器”,它们承担风险、利用风险、控制风险、化解风险,并将银行产品和服务同风险建立起各种联系。自20世纪90年代以来,经济、金融全球化势不可挡,金融创新层出不穷,与此同时金融危机也不断上演。追根溯源,历史上每一次金融危机的发生无不与银行风险管理存在漏洞有着直接或间接的关系。实践证明,建设科学完善的风险管理体系是银行成功经营的重要保障,也是国际和国内银行业共同追求的目标。
学位
随着全球经济一体化日趋明显,市场竞争日益激烈,面对国外汽车巨头的进入,我国的汽车工业仍存在技术含量低、规模小、自主研发差、缺少自主品牌等问题。但在知识经济时代,品牌和技
根据近20年所发表的耳穴疗法现代文献,对耳穴防治便秘的选穴特点、治疗规律、疗效等进行评价,并对目前临床研究中存在的问题及今后研究的重点提出了建议。
目的:通过使用经颅多普勒(TCD)连续观测针刺左侧飞扬穴不同时间点的大脑中动脉(MCA)血流动力学变化,探讨该穴对双侧MCA血流动力学是否存在负性影响,为临床治疗相关脑血管疾病
80年代以来生态环境已超越意识形态冲突 ,成为世界各国关注的国家安全的首要问题。人口、环境和生态资源等既显示生态环境问题的多层次性、复杂性特征 ,也与国家安全息息相关